septembre 2014 | 21 minutes de lecture
L'IA au quotidien

Comment les nouveaux outils de Data Mining réinventent l'étude de marché ?

etude de marche.JPG
maurice-n.jpg
Maurice Ndiaye
Partner

Face cachée de la Big Data, les données non structurées représentent environ 90% des contenus sur le Web. Contrairement aux données structurées, facilement classifiables et quantifiables, les données non structurées sont "brutes", exprimées en langage naturel.
Pour être utilisées au service de l'innovation marketing et constituer une aide à la prise de décision, elles doivent donc être décryptées, classées, codifiées. Or, seul un outil de Data Mining adapté, permettant de traiter des données issues des études qualitatives, peut rendre cela possible.

Aujourd’hui, un décideur dispose d’un certain nombre de données marketing structurées il peut facilement obtenir des synthèses chiffrées sur diverses thématiques. Et cela, grâce aux données statistiques de fréquentation de site Web ou grâce aux données issues des ventes: taux de clic, historiques de navigation, cordonnées GPS, données financières et logistiques… C’est que les gros volumes de données, dès l’instant où ils sont en amont disponibles à travers une grille structurée, sont facilement manipulables. Mais comment faire lorsqu’on dispose d’un texte pour seule matière première ? Comment faire pour décrypter un témoignage client, un avis consommateur, et en tirer le meilleur parti pour faciliter la prise de décision – c’est-à-dire des informations structurées – lorsqu’on dispose de ces données à très grande échelle? Ces informations doivent permettre l’agrégation (classement et comptage), la comparaison numérique et la synthèse par réduction des données. Or, par définition, le langage parlé est un code de communication aux combinaisons presque infinies, fait de séquences variées et imprévisibles. Il est donc impossible de décoder ces signaux sans une vue d’ensemble du corpus analysé et une compréhension globale du contexte.

 Cela rejoint un problème assez commun auxquels sont confrontés les chargés d’étude statistique: le traitement des réponses aux questions ouvertes. Dans le cas des études qualitatives et entretiens individuels, le chargé d’étude se retrouve face à un énorme volume de verbatims (données textuelles) qu’il doit interpréter un à un. Cette méthode le conduit souvent, au fur et à mesure de l’avancée de l’étude, à revoir sa structure de codification. Face à certaines réponses, il peut en effet détecter de nouvelles thématiques dignes d’intérêt, répondant directement aux objectifs de l’étude.

Sur le Web, il s’agit un peu du même type de problème. Avis, témoignages, retours d’expérience des consommateurs dans les forums, sur les sites dédiés, les réseaux sociaux, e-mails… Tous ces contenus constituent en définitive d’innombrables réponses à des questions ouvertes que les entreprises pourraient exploiter, au même titre qu’une étude de marché. Pourtant, malgré leur potentiel immense, elles ne sont encore que très peu utilisées pour nourrir l’approche marché, faute de moyens adaptés.

Comment éliminer les marges d’erreurs de l’étude de marché?

Dans le cas de l'étude quantitative, il est aisé de structurer les réponses collectées. Mais dans le cas de l'étude qualitative, des centaines de comptes rendus écrits d'entretiens individuels, doivent être lus, analysés, puis retranscris sous la forme d'une grille de codification. Les données pourront ensuite être classées, comparées, et croisées avec celles qui alimentent traditionnellement les systèmes décisionnels (analyses des ventes, données statistiques du site Web...). C’est seulement une fois ces opérations effectuées qu’on peut obtenir des données chiffrées et synthétiques.

Dans le champ de l’étude statistique, la codification a pour objectif de rendre les réponses compréhensibles et interprétables, mais aussi comparables et susceptibles d’être exploitées par un les outils décisionnels de l’entreprise. Traditionnellement, il existe deux approches pour rendre analysables et quantifiables les opinions diverses recueillies dans le cadre de questions ouvertes : la codification linéaire, verbatim après verbatim, et l’échantillonnage. La première solution, fastidieuse et longue d’exécution, utilise fréquemment des grilles de codification préexistantes, issues d’anciennes études – calquage qui n’est pas toujours pertinent. La deuxième solution repose quant à elle sur un système de probabilité ; l’échantillonnage prenant en compte une partie du panel représentatif d’un très grand nombre d’opinions. Ces deux méthodes présentent donc une marge d’erreurs ou d’omissions possibles. L’analyse du contenu s’effectue bien souvent au détriment de la richesse initiale des textes en introduisant de nombreux biais et n’exploite qu’une part limitée des retours d’expérience.

Les enjeux de l’analyse de données à grande échelle

Dans ce contexte, une analyse sémantique fiable doit permettre d’apprécier toutes les nuances de perception et d’opinion et déceler les signaux faibles. Ces verbatims, disponibles en très faibles quantités, qui représentent des signaux plus ténus, peuvent facilement passer inaperçu dans le cadre d’une "analyse humaine". Or, ils peuvent se révéler d’une importance majeure – informant par exemple sur la défaillance d’un produit, d’une logistique – ou mettre en évidence des pistes d’amélioration à divers niveaux. Parfois même, ils peuvent conduire à la découverte de formes d’usage émergentes, de nouvelles tendances, et mettre en lumière des opportunités de business insoupçonnées.

L’étude qualitative au sens classique peut moins facilement conduire à l’innovation. Passée au crible de la codification manuelle, une étude de marché conduit fréquemment à des interprétations peu révélatrices, partielles ou à la représentativité contestable. Les critères d’attribution des verbatims font toujours, d’une manière ou d’une autre, intervenir la subjectivité du codeur, par définition influencé par son propre cadre de référence et des éléments extérieurs. D’autre part, entre le début et la fin du travail de codification, d’une vague d’enquêtes à une autre, ces critères sont inévitablement amenés à évoluer, et sont d’autant plus mouvants que la classification est réalisée par plusieurs personnes. Dans le cas des méthodes traditionnelles de traitement des questions ouvertes, les décideurs doivent par ailleurs généralement se contenter du classement de 80% des questionnaires. 

Aujourd’hui, une connaissance marketing fiable, issue du traitement automatisé d’une grande quantité de données non structurées, doit être possible sans avoir à parcourir un à un tous les verbatims.

Le traitement automatique du langage naturel, ayant permis le développement d’outils de fouille de texte (text-mining), fournit désormais des moyens techniques d’exploiter pleinement la richesse des contenus issus des études qualitatives. Et, plus généralement, elle permet d’exploiter à leur juste valeur les données non structurées présentes sur le Web. Cet outil de Data Mining, que l’on peut qualifier de technologie d’analyse sémantique automatisée, est fondé sur des algorithmes utilisés pour les moteurs de recherche Synomia. Il rend possible l’analyse d’un corpus dans son ensemble, de manière à détecter tous les signaux, offrant une base de codification 100% fiable et efficace.

Cette connaissance est rendue possible par le fait que l’outil de Data Mining analyse chaque verbatim en fonction de l’ensemble du corpus. Ce qui traditionnellement, resterait hors classement fait l’objet d’un tri spécial, et d’un signalement en vue de mettre à jour l’ensemble de la classification. Du fait de cette structure de classification évoluée et flexible, capable de se renouveler à chaque nouvelle itération de l’enquête, il devient possible de livrer une analyse au plus près du ressenti des interviewés.

Le signalement automatique des contenus ne correspondant pas au plan de classement constitue un moyen très efficace de dépasser les limites de la codification et de détecter les tendances naissantes, les nouveautés, qui s’expriment généralement sous forme de signaux faibles. Par exemple, dans une enquête pour un opérateur de téléphonie sur l’usage des boxes multimédia, l’apparition du terme «domotique» est constituée en indice. C’est l’augmentation relative de la fréquence de ce terme qui permet de déceler l’apparition d’un nouvel usage ou d’une nouvelle attente, extérieurs à l’objet initial de l’étude.

Un outil de Data Mining appliqué à l’étude de marché

Traiter les questions ouvertes, c’est certes quantifier les idées émises, mais c’est surtout chercher à comprendre les sentiments et motivations des personnes interrogées. Seule cette compréhension fine permet de passer de la recherche à l’action et l'innovation marketing. Souvent, les procédés traditionnels d'analyse de données relèguent les verbatims au statut de matière première. L’utilisateur n’y a pratiquement jamais accès, sauf sous forme de citation, sélectionnée de manière subjective. Au contraire, il faudrait pouvoir accéder, sur une interface à la navigation intuitive, à l’organisation des items par thèmes, sous-thèmes, et de là, à chacun des verbatims. L’outil d’analyse de données marketing qualitatives doit pouvoir délivrer des analyses fines sur un gros volume de données, mais il doit aussi permettre de vérifier l’authenticité du classement en un clic. En accédant aux verbatims dans leur intégralité, l’utilisateur peut valider les analyses, et dispose à tout moment d’une justification statistique.

Enfin, l’analyse doit être par définition évolutive. L’outil doit donc aussi pouvoir soutenir les entreprises dans leur gestion de flux tendus et ajuster les données quasiment en temps réel. Dans les faits, au fur et à mesure que le corpus s’enrichit de nouvelles entrées, l’outil traite les données sans aucun besoin de recourir à l’intervention humaine. Il permet donc de garantir la reproductibilité des analyses et de mettre en place des baromètres précis et fidèles aux opinions exprimées.

 

Vous souhaitez en savoir plus sur notre technologie et notre analyse ?

Nous contacter pour en savoir plus

Suggestion d'articles

L'IA au quotidien
août 2016 | 1 minute de lecture
L'IA au quotidien
octobre 2016 | 2 minutes de lecture
L'IA au quotidien
décembre 2016 | 3 minutes de lecture