Les technologies clés

* Technologies de l'information et de la communication

Reconnaissance de la parole

Fiche Technologie-clé n : 57

VERSION 3


Présentation de la technologie

[100tc]Définitions

La reconnaissance de la parole consiste à transcrire une voix humaine en informations numériques reconnaissables par l'ordinateur, en vue d'effectuer une action a posteriori, notamment dans le cadre d'interfaces homme-machine.


- Techniques mises en oeuvre :

La reconnaissance de la parole est une technologie pluridisciplinaire. Elle fait intervenir les compétences conjointes de spécialistes dans les domaines du traitement de signal, de l'acoustique, de l'intelligence artificielle, de la linguistique, de la phonétique, de la physiologie, de la psychologie cognitive et de l'ergonomie.

Objectifs de la technologie

[100tc]Contexte concurrentiel et économique

L'interface Homme-Machine est souvent un élément négligé par les concepteurs. C'est pourtant la partie du système à laquelle on doit apporter le plus grand soin, car celle-ci est "vue" par l'utilisateur. Quelle que soit la qualité intrinsèque d'un produit, une mauvaise interface provoque toujours une impression désagréable, devenant souvent un critère de rejet pour ses utilisateurs potentiels, et cela peut conduire à un échec commercial. La reconnaissance de la parole, plus que tout autre moyen de communication avec la machine, n'échappe pas à cette règle. Aussi, de nombreux produits voient le jour à l'heure actuelle afin d'être intégrés dans des applications grand public ou professionnelles (dictée automatiques, bornes d'informations, serveurs vocaux, etc.).

[100tc]Fonctions remplies :

Compréhension par un ordinateur des mots énoncés par une voix humaine.

Environnement technologique

[100tc]Technologies concurrentes :

Il existe globalement deux méthodes utilisées dans le cadre de la reconnaissance automatique de la parole : les approches "analytiques" (qui utilisent des connaissances linguistiques pour augmenter les performances de la reconnaissance), et les méthodes dites "globales" ou les mots sont considérés comme du signal quelconque qu'on compare à des références sans décomposition préalable. Cette méthode résulte d'une simplification du problème de façon à le rendre plus abordable. Elle ne permet pas la reconnaissance de parole continue en raison de l'explosion combinatoire des références : il faudrait en effet conserver en mémoire des portions de phrases voire même des phrases entières.

Il est intéressant de détailler les différentes étapes d'un processus de reconnaissance de la parole, car elles font chacune l'objet de travaux approfondis (certains laboratoires s'étant même spécialisés sur un seul segment de la chaîne de la reconnaissance) .

- Traitement du signal

Une des premières actions consiste à mettre en forme le signal de parole pour éliminer les bruits parasites mais également pour en extraire les paramètres pertinents. Ce dernier point est généralement résolu par des analyses que l'on peut classer en 3 groupes :

- Décodage acoustico-phonétique

Il s'agit ensuite de décomposer les mots en unités symboliques discrètes - sortes d'"atomes" du langage - qui vont permettre de décrire aussi bien les mots de référence contenus dans le dictionnaire que les mots que l'on cherche à reconnaître. Une unité idéale existe et permet de décrire tous les sons caractérisant une langue : c'est le phonème. La plupart des langues comportent moins d'une centaine de phonèmes. Plusieurs voies de recherche sont actuellement empruntées pour atteindre ce but. On distingue globalement 3 approches :

- Reconnaissance des limites de mots

Plusieurs techniques coexistent suivant le degré de performance des systèmes. L'une des plus simples consiste à exiger de l'utilisateur qu'il prononce ses mots de façon séparée. La reconnaissance de début et de fin se fait par des techniques de normalisation du signal par rapport au bruit de fond (seuillage par exemple).

Pour les systèmes de reconnaissance de parole continue à faible vocabulaire mettant en jeu la technique du Word Spotting, la difficulté provient du fait que l'on ne connaît pas l'ensemble du vocabulaire prononcé par le locuteur, mais seulement quelques dizaines de mots. Pour contourner ce problème, on enregistre une référence "poubelle" constituée d'une moyenne des unités phonétiques enregistrées lors de la phase d'apprentissage, mais n'appartenant pas au vocabulaire. Lorsque le signal observé est corrélé de façon plus forte à cette référence "poubelle" qu'aux références du vocabulaire, il s'agit probablement d'un début ou d'une fin de mot.

Dans les systèmes de reconnaissance de parole continue à grand vocabulaire, la quasi totalité des mots prononcés est connue. On peut donc savoir si l'on se trouve dans le dernier état du dernier phonème d'un mot. Cependant, cette certitude n'est pas absolue à un instant donné. On est donc obligé d'attendre qu'une phrase ou qu'un groupe de mots suffisant soit prononcé pour choisir parmi les différentes possibilités celle qui paraît la plus vraisemblable, éventuellement en recourant à des connaissances supplémentaires. Le problème de la reconnaissance est de ce fait plus complexe que dans les cas précédents.

- Reconnaissance des mots

Tant que le vocabulaire reste faible (de l'ordre d'une centaine de mots), il est possible de comparer les entités détectées à l'ensemble des références du dictionnaire. Ceci est en revanche inconcevable pour les systèmes à grand vocabulaire. On peut exploiter alors le partitionnement des mots, réalisé dans le décodage acoustico-phonétique, pour représenter le vocabulaire en arborescence d'unités linguistiques. Vient ensuite la possibilité de reconnaître le sens de la phrase. Cet aspect de la recherche est très nettement dominé par les techniques classiques d'intelligence artificielle.

[100tc]Evolutions technologiques :

Les voies qui restent à explorer sont nombreuses. Cependant on peut distinguer quelques axes privilégiés qui semblent faire l'unanimité des chercheurs. Il s'agit de :

Evolutions économiques :

On peut classer les différents produits selon leurs performances techniques, à savoir reconnaissance de mots isolés par rapport à parole continue, systèmes monolocuteurs par rapport à systèmes multilocuteurs, etc. :

[100tc]Programmes de recherche :

De nombreux programmes de recherche sont actuellement en cours dans le monde. Il est probable que l'apport conjoint de différentes techniques, jusque là opposées, permettra de résoudre le problème de la reconnaissance automatique de la parole. L'étendue des compétences et des moyens nécessaires à une telle fusion ne peut évidemment se trouver dans un seul laboratoire. Cependant un niveau satisfaisant a d'ores et déjà été atteint puisque de nombreux systèmes de reconnaissance continue existent dans les laboratoires. La recherche se concentre maintenant sur la diminution du taux d'erreur notamment dans les phases de décodage acoustico-phonétique où celui-ci reste encore assez important, ainsi que sur les aspects de compréhension du sens. Lorsque l'on disposera de bases de données en nombre suffisant, il sera alors possible de "durcir" les systèmes de reconnaissance automatique en identifiant le type de locuteur, son accent ou même son âge et en chargeant dans le système un dictionnaire approprié. A noter également certaines expériences de traduction simultanée de la voix transmise par téléphone (expérimentation de l'ATM), une personne parlant en japonais à un interlocuteur recevant quasiment en temps réel la traduction en anglais du discours émis. Il est également à noter qu'un grand nombre de projets ont été mis en place dans le cadre de la Commission de l'Union Européenne :

D'autres ont un caractère applicatif plus prononcé. Par exemple :

Dans le cadre d'actions préparatoires au lancement des études "ingénierie du langage", sous ensemble du programme "Applications télématiques" du 4ième programme cadre européen (1994-1998), un programme a été lancé par la Commission Européenne en mars 1994. Ce programme est baptisé MLAP (MultiLingual Action Plan).

Parmi les projets retenus, on peut citer :

retour

nous écrire