Google+

L'EXTRACTION DE SYNTAGMES

L'analyse sémantique et syntaxique, à quoi ça sert ?

L'analyse sémantique et syntaxique sert d'abord à trouver des « groupes nominaux »

Les mots, ça ne suffit pas pour caractériser le contenu sémantique d'un texte. La stratégie « sac de mots » qui consiste à considérer un texte comme un paquet de mots sans connexion entre eux peut être suffisante dans certains cas. C'est l'approche des moteurs de recherche pour indexer l'ensemble des pages présentes sur le Web.

Tout analyseur sémantique doit au minimum être capable d’extraire automatiquement des textes des « groupes nominaux », c'est-à-dire des expressions composées de 2 ou 3 mots (ou plus), comme par exemple pour des textes qui parlent de prestations sociales : pension de retraite, taux plein, régime général, caisse de retraite, pension de réversion, conditions de ressources, nombre de points. Ces expressions sont beaucoup plus précises que les simples mots (retraite, taux, nombre, caisse, point), et représentent ainsi de façon bien plus adéquate le contenu sémantique des textes. À Synomia (et en linguistique), on appelle ces groupes des « syntagmes ».

analyse sémantique syntagmes

A côté des mots et des syntagmes, il faut aussi prendre en compte les entités nommées, c’est-à-dire des mots ou expressions qui désignent des personnes, pays, villes, marques, etc. Mais ça c’est facile, grâce à des dictionnaires et des règles d’extraction simples.

 


Pour extraire des syntagmes nominaux, les moteurs sémantiques standard utilisent une technologie rudimentaire.                

Pour extraire des textes des syntagmes nominaux, les moteurs sémantiques standards utilisent une technologie qui consiste à identifier toutes les séquences de mots qui correspondent à une suite de catégories grammaticales valide. Par exemple :

  •        un nom suivi d’un adjectif (régime général, taux plein)
  •       un nom suivi de de suivi d’un nom (pension de retraite, conditions de ressources).
  •      un nom suivi de à suivi d’un nom (départ à la retraite).

Cette technologie est trop rudimentaire pour extraire avec suffisamment de couverture et de précision les syntagmes nominaux d’un texte. En particulier, elle génère un bruit important.

Par exemple, dans la phrase

 << La personne bénéficie d’une pension de retraite majorée >>

Un moteur standard va extraire le groupe retraite majorée (nom suivi d’adjectif), ce qui est une erreur car c’est la pension (de retraite) qui est majorée.

Autre exemple, dans la phrase

<< Il s’agit de la retraite de base de la sécurité sociale >>

Un moteur sémantique standard va extraire le groupe base de la sécurité (nom suivi de nom), ce qui est aussi une erreur.

Grâce à l’analyse sémantique et syntaxique, le moteur Synomia ne commet pas ce type d’erreurs.

 

Grâce  à l’analyse sémantique et syntaxique, le moteur Synomia extrait des syntagmes nominaux avec une précision maximale

Reprenons les exemples ci-dessus. Parce que l’analyseur syntaxique a su reconnaître que l’adjectif majorée dépendait du nom pension (lien en vert), et non du nom retraite, le moteur Synomia extrait les syntagmes pension de retraite majorée, pension de retraite, voire pension majorée, mais il n’extrait pas le syntagme retraite majorée.

analyse sémantique extraction de syntagmes

Parce que l’analyseur syntaxique a su reconnaître que la préposition de devant le nom sécurité dépendait du nom retraite (lien en vert), et non du nom base, le moteur Synomia extrait  les syntagmes retraite de base de la sécurité sociale, retraite de base, sécurité sociale, mais il n’extrait  pas les syntagmes base de la sécurité.

analyse sémantique extraction de syntagmes2

 

 

Grâce à l'analyse sémantique et syntaxique, le moteur Synomia extrait des syntagmes nominaux avec une couverture maximale

A cause de leur technologie rudimentaire, les moteurs sémantiques standard extraient des syntagmes nominaux de longueur 2, c’est-à-dire constitué de 2 mots pleins, un nom et un adjectif ou 2 noms. Parce qu’il exploite l’analyse syntaxique complète des phrases, le moteur Synomia ne souffre pas de ces limitations. Il peut extraire des syntagmes nominaux de longueur et de structure très variées. Dans les exemples précédents, le syntagme pension de retraite majorée à une longueur de 3, et le syntagme retraite de base de la sécurité sociale a une longueur de 4.

Les syntagmes de longueur 3 et plus ont une importance capitale dans tout corpus.

analyse sémantique extraction de syntagmes3

Le moteur Synomia extrait ces groupes nominaux quelle que soit leur fréquence d’apparition dans le corpus. Aucun filtre sur la fréquence n’est nécessaire pour éliminer les groupes extraits sur la base de l’analyse syntaxique. Au contraire, les moteurs standards sont contraints d’appliquer des filtres sur la fréquence pour cacher au maximum les groupes erratiques.

Le moteur d'analyse sémantique Synomia permet d’aller chercher de vrais signaux faibles.


Grâce à l'analyse syntaxique, le moteur Synomia extrait des syntagmes verbaux

Les moteurs sémantiques standards n’extraient que des syntagmes nominaux, composés de noms ou d’adjectifs. Mais si un syntagme nominal comme versement d’une pension est jugé pertinent, pourquoi laisser de côté le syntagme verbal verser une pension, composé d’un verbe et d’un nom ?!

Grâce à l’analyse syntaxique, le moteur sémantique Synomia extrait des groupes verbaux, constitué d’un verbe et d’un ou plusieurs compléments. Par exemple, dans la phrase « l’organisme verse une pension à l’assuré », parce que l’analyseur syntaxique a reconnu que pension était le complément d’objet direct du verbe verse, que assuré était son complément d’objet indirect, le moteur Synomia est en mesure d’extraire les groupes verbaux verser une pension, verser une pension à l’assuré.

analyse sémantique extraction de syntagmes4

Quelques exemples de syntagmes verbaux :

analyse sémantique extraction de syntagmes5

 

 

Contact:

Maurice NDIAYEDirecteur du développement de Synomia

maurice.ndiaye@synomia.com

T / +33 (0)1 46 10 06 46

DES INSIGHTS REGULIERS SUR L’EXPLOITATION DU BIG DATA AU SERVICE DE VOTRE ENTREPRISE ?

NOUS CONTACTER

Synomia
63 bis rue de Sèvres
92100 Boulogne-Billancourt

Tel : +33 (0)1 46 10 06 40

Email :

Scroll to Top