Google+

LE BIG DATA REVELE LA VALEUR DES DONNEES NON-STRUCTUREES

LA DATA NON STRUCTURÉE

associe-didier


Didier Bourigault, Directeur de la R&D chez Synomia et chercheur au 
CNRS, nous expose sa vision de l’importance capitale de l’analyse des 
données non structurées au sein du Big Data.
 

 


Données structurées vs données non structurées

Les données structurées sont celles dont l'ensemble des valeurs possibles est déterminé et connu à l'avance. Par exemple, dans une base de données rassemblant les résultats d'une enquête d'opinion, l'âge ou la catégorie socio-professionnelle des individus interrogés sont des données structurées, car les tranches d'âges ou la liste des catégories socio-professionnelles possibles sont déterminées a priori.

Les réponses libres aux questions ouvertes sont des données non structurées, car ces réponses sont potentiellement toutes différentes et impossibles à catégoriser a priori. Dans une base de données client de mails, l'auteur ou la date sont des données structurées, le corps du message est une donnée non structurée.

 De façon générale, les données non structurées sont des données textuelles.

 

données stucturées et non structurées

 

 

La problématique du Big Data relance celle du traitement des données non structurées


Le traitement des données non-structurées de manière automatique est une problématique de R&D et une problématique industrielle depuis les débuts de l'informatique. L'application historique est la traduction automatique. 

Les domaines de recherche qui s'intéressent à la problématique du traitement automatique des données non structurées s'intitulent Traitement automatique des langues, informatique linguistique, intelligence artificielle, text mining, ou Natural Language Processing, Artificial Intelligence.

Actuellement, la dénomination la plus en vogue du secteur industriel qui s'intéresse aux données non structurées est « Text Analytics » (cf. le Who's Who in Text Analytics oublié par Gartner en septembre 2012 )

Les données non structurées sont peu exploitées parce que les technologies proposées par les entreprises du Text Analytics ne sont pas assez évoluées


Actuellement, les principales tâches de traitement linguistique proposées dans les outils industriels sont : 

  • reconnaissance des entités nommées
  • extraction des termes (noun phrases)
  • analyse du sentiment
  • extraction de relations (triplets subject-verb-object)

Deux éléments expliquent que les données non structurées ne sont pas facilement exploitables :

  • Les analyses linguistiques effectuées par les outils d'analyse textuelle du marché sont pauvres. Elles sont loin de pouvoir caractériser le contenu des textes analysés de façon signifiante, précise, complète. Elles ne révèlent qu'une part restreinte du contenu du jeu de données : le text mining n'est pas encore une science généralisée.
  •  Pour combler ces lacunes, les promoteurs de ces outils proposent des plateformes dotées de fonctionnalités permettant à l'utilisateur de customiser des lexiques et des règles d'extraction spécifiques au corpus, au métier et aux objectifs de l'analyse. Mais le coût est très élevé, en terme de compétences d'abord (il faut des compétences qui s'approchent de celle d'un développeur TAL, qui ne sont pas accessibles à des consultants) et en terme de temps ensuite, puisque l'utilisateur doit découvrir par lui-même quelles sont les spécificités linguistiques pertinentes de son corpus. Cette possibilité de customisation est présentée par les industriels comme un avantage, mais c'est en réalité un frein dans l’exploitation des données brutes.

En conséquence, les données non structurées sont très peu exploitées. Elles le sont au sein de grandes entreprises qui ont les moyens de former des utilisateurs des plateformes industrielles de Text Analytics.

DES INSIGHTS REGULIERS SUR L’EXPLOITATION DU BIG DATA AU SERVICE DE VOTRE ENTREPRISE ?

NOUS CONTACTER

Synomia
63 bis rue de Sèvres
92100 Boulogne-Billancourt

Tel : +33 (0)1 46 10 06 40

Email :

Scroll to Top