Google+

L'ANALYSE SÉMANTIQUE ET SYNTAXIQUE

L'analyse sémantique et syntaxique, qu'est ce que c'est?

Quelques souvenirs de l'école primaire et du collège… En classe de grammaire, on parle de la « nature » des mots, c’est-à-dire de leur catégorie grammaticales (nom, verbe, adjectif, etc.), et de leur « fonction » dans la phrase (sujet, complément d'objet direct, complément circonstanciel, épithète, attribut, etc.). Et faire l’analyse grammaticale d’une phrase, c’était identifier la fonction syntaxique de tous les mots ou groupes de mots de la phrase.

Faire l’analyse syntaxique d’une phrase, c’est une tâche qui peut être difficile pour un jeune écolier. C’est une tâche encore plus délicate pour un logiciel. On parle alors d’analyse syntaxique. La tâche d’un analyseur syntaxique est  d’identifier pour chaque mot d’une phrase de quel autre mot il dépend syntaxiquement et via quelle relation syntaxique.

Pour une phrase simple comme Jean aime Marie, ce n’est pas très compliqué : le nom propre Marie dépend du verbe aime via la relation sujet (« Jean est le sujet du verbe aime »), et le nom propre Jean dépend du verbe aime via la relation objet (« Marie est le complément d’objet direct du verbe aime »).

synomia analyse sémantique et syntaxiqueMais dès que la phrase est un peu plus longue, les choses se compliquent :

synomia analyse sémantique et syntaxique_2


Un analyseur syntaxique est un logiciel qui prend en entrée un ensemble de textes et qui produit en sortie l’analyse syntaxique de chacune des phrases de chacun des textes, en calculant pour chaque mot de chaque phrase de quel autre mot il dépend dans cette même phrase.

Synomia utilise son analyseur syntaxique sur des corpus de textes de types variés dans ses différentes applications de marketing digital :

  •          réponses à une question ouverte d'enquête d'opinion, pour le codage des verbatim
  •          avis d'internautes récoltés sur les réseaux sociaux ou les forums autour d'une marque pour l’analyse d’opinion
  •          pages d'un site web et celles de ses sites concurrents pour l’audit sémantique
  •          etc.

Synomia est le seul acteur du domaine du big data à exploiter un analyseur syntaxique au cœur de sa technologie d'analyse sémantique.

Technologie Synomia :

synomia analyse sémantique et syntaxique_3


L'analyse syntaxique, pourquoi est-ce si difficile ?

L'analyse syntaxique automatique est un sujet de recherche dans le domaine du Traitement Automatique des Langues depuis le début de l’informatique et de la traduction automatique, dans les années 1950, quand les autorités américaines ont encouragés les laboratoires de recherche américains à travailler sur la traduction automatique des documents russes en anglais.

C’est un problème très difficile. Sans entrer dans les détails théoriques et techniques, on peut résumer ces difficultés en 3 points. 


Problème n°1 - L'ambiguïté de rattachement syntaxique

Le problème prototypique de l’analyse syntaxique automatique est celui de l’ambiguïté de rattachement, des adjectifs et des prépositions en particulier. Dans la phrase (a)  « une entorse de la cheville sérieuse », l’adjectif sérieuse peut dépendre du nom cheville ou du nom entorse. Dans la phrase (b), « un gâteau au chocolat noir » l’adjectif noir peut dépendre du nom chocolat ou du nom gâteau. De même, dans la phrase (c), la préposition à peut dépendre du nom balle ou du verbe lancer. Dans la phrase (d), la préposition à peut dépendre du nom gâteau ou du verbe donner.

Ces ambiguïtés ne sont même pas perçues par un lecteur humain. Mais elles sont réelles pour une machine. Elaborer des algorithmes et règles qui permettront à l’analyseur syntaxique d’effectuer le bon choix dans la plus grande majorité des cas est une tâche très difficile.

synomia data_analyse sémantique et syntaxique_4

Problème n°2 - Les relations longues distances

Une phrase peut être très longue, et la distance entre un mot et le mot dont il dépend syntaxiquement peut être grande. C’est une autre difficulté dans la tâche de réalisation d’un analyseur syntaxique (ce peut être une difficulté aussi pour le lecteur humain). Dans la phrase ci-dessous, le nom demande et les prépositions pour et au dépendent tous du verbe est remise, alors qu’ils en sont fort éloignés.

<< La demande, accompagnée d’un avis d’imposition ou de non-imposition de l’année n-2 et des pièces justificatives correspondant à des situations particulières (divorce, chômage), est remise dans le courant du premier trimestre de l’année civile pour la rentrée scolaire suivante au chef d’établissement.>>

 

Problème n°3 – L’intrication : dans une même phrase, l'analyseur doit résoudre en même temps plusieurs problèmes de type 1 (ambiguïté de rattachement) et plusieurs problèmes de type 2 (relations à distance)

Le comble de la difficulté est que les difficultés s’ajoutent. L’analyseur doit résoudre plusieurs ambiguïtés de rattachement dont certaines peuvent concerner des relations longue distance. Il doit respecter 2 conditions de base :

  •           un mot ne dépend que d’un seul autre mot
  •           les liens syntaxiques ne peuvent pas se croiser

Dans la phrase ci-dessous, 4 mots peuvent être dépendants de plusieurs autres mots (la préposition de après le nom pelote peut dépendre du nom pelote ou du verbe lance, l’adjectif ronde peut dépendre du nom laine ou du nom pelote, la préposition au peut dépendre de l’adjectif ronde, du nom laine, du nom pelote ou du verbe lance, la préposition de après le nom chat peut dépendre du nom chat, du nom laine, du nom pelote ou du verbe lance.

synomia analyse sémantique et syntaxique_5

Concevoir une architecture informatique et des algorithmes de traitement qui permettent de résoudre cette difficulté est une tâche de grande ampleur. L’analyseur Synomia est le résultat de plusieurs années de recherche, menées dans le cadre d’un partenariat entre le CNRS et la société Synomia.

 

 


DES INSIGHTS REGULIERS SUR L’EXPLOITATION DU BIG DATA AU SERVICE DE VOTRE ENTREPRISE ?

NOUS CONTACTER

Synomia
63 bis rue de Sèvres
92100 Boulogne-Billancourt

Tel : +33 (0)1 46 10 06 40

Scroll to Top