Ingénierie linguistique - les enjeux :

La reconnaissance vocale

De la voix à l'écran.

La reconnaissance vocale, c'est :

  • une conversion de la voix en fichier numérique
  • un traitement automatique ou semi-automatique de la langue parlée

De la dictée en mots isolés à la dictée en temps réel

Auparavant l'ordinateur arrivait à comprendre un mot après l'autre. Tous les logiciels de reconnaissance vocale imposaient au locuteur une pause entre chaque mot. Le locuteur devait au préalable enregistrer son texte puis le confier à la machine qui lui en rendait une version informatique. Maintenant des systèmes se lancent dans la reconnaissance en continu de la parole. Le texte est dicté et il apparaît presque instantanément à l'écran. Le système doit alors reconnaître les mots mais surtout déterminer le début et la fin de chacun d'entre eux.
Toutefois, il est encore exigé de parler d'un ton relativement monocorde, tout en énonçant au fur et à mesure tous les signes de ponctuation.

Quelles sont les principales applications ?

  • la dictée vocale associée à un traitement de textes, par exemple,
  • les serveurs d'informations par téléphone,
  • la messagerie,
  • le gain d'autonomie dans l'industrie ou en médecine. Ainsi, il peut être utile de permettre à un technicien de maintenance de "dicter" la description de son intervention plutôt que de l'écrire ou d'appeler une information technique complémentaire d'un serveur vocal lorsqu'il est dans une position inconfortable, les deux mains occupées. La même possibilité peut être appréciée par les chirurgiens, par exemple,
  • la sécurité grâce à la signature vocale,
  • la commande et le contrôle d'appareils à distance.
Comment fonctionne la reconnaissance vocale  ?

Grâce à sa carte sonore, l'ordinateur numérise la voix. Celle-ci est découpée en portions très réduites (de l'ordre d'un centième de seconde). Ces portions sont ensuite reconstruites en " phonèmes " (élément caractéristique et indivisible du langage). Ces phonèmes sont déterminés acoustiquement par traitement du signal sonore et par comparaison avec une bibliothèque de phonèmes stockée dans le système. Celui-ci va ensuite coller ces phonèmes les uns aux autres afin de retrouver les mots dictés.
Le système est alors obligé de considérer que chaque phonème peut être le début d'un mot. Le traitement s'en trouve alourdi sauf si on utilise des statistiques de probabilité d'apparition : le système calcule les possibilités d'apparition d'un mot après deux autres précédemment reconnus et choisit le plus pertinent.
Du traitement acoustique, on est alors passé au traitement linguistique.

Les avantages de la reconnaissance vocale :

Faciliter la navigation d'usagers inexpérimentés avec :

  • des interfaces plus légères,
  • une navigation plus simple et plus rapide,
  • des services plus accessibles.
  • L'ordinateur devient alors plus facile à utiliser pour ceux qui ne connaissent pas l'informatique, mais aussi pour les malvoyants et les handicapés.

    Voir quelques outils existants.