Les ressources linguistiques : les corpus

Que sont les ressources linguistiques ?

Pour développer les outils de traitement informatique du langage, les chercheurs et les industriels ont besoin de recueillir de grandes quantités de textes écrits et oraux numérisés et codés pour pouvoir se fonder sur l'usage réel de la langue. Nous devons veiller à ce que ces ressources linguistiques existent et soient disponibles pour le français.

Les ressources linguistiques sont des recueils de données informatisées de productions langagières écrites ou parlées. Elles sont de plusieurs types :

  • Les corpus écrits :
    • corpus bruts : textes écrits ou transcriptions écrites de productions orales comme on en obtient grâce au système de codage TEI (Text encoding initiative).
    • corpus annotés ou enrichis : avec des indications relatives à la structure du texte, aux catégories morphosyntaxiques ou sémantiques.
    • corpus alignés : avec un contenu traduit en plusieurs langues.

  • Les corpus oraux : des enregistrements de voix humaines :
    • lecture de textes à voix haute,
    • discours,
    • dialogues,
    • émissions de radio et de télévision,
    • etc.
    Comme les corpus écrits, ils peuvent être enrichis d'informations de diverses natures : des informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc.
  • Autres types de ressources linguistiques :

    • Les lexiques, les dictionnaires et les grammaires électroniques.
    • Les ressources terminologiques : dictionnaires, lexiques ou banques de données de vocabulaires spécialisés, mono ou multilingues.

    À quoi servent les ressources linguistiques  ?

  • À l'élaboration de systèmes :
    De nombreux systèmes de traitement de la langue écrite ou parlée fonctionnent par apprentissage à partir de corpus. On considère que la performance des modèles proposés par ordinateur - dans la recherche et le filtrage documentaire ou la traduction assistée - dépend, pour une large part, de la masse des données linguistiques disponibles pour entraîner le système.
    Les corpus permettent aussi de construire des ressources linguistiques indirectes : des lexiques spécialisés à partir d'un ensemble de textes techniques.

  • À l'évaluation de systèmes :
    Les ressources linguistiques, et notamment des corpus de grande taille, sont utilisés pour évaluer les systèmes développés et pour les comparer : des logiciels de recherche documentaire ou de filtrage d'information, des correcteurs orthographiques et grammaticaux, etc.
    Ces campagnes d'évaluations, qui ne peuvent être mises en œuvre efficacement sans disposer des corpus adéquats, sont particulièrement importantes pour mesurer les progrès réalisés et pour diffuser et valoriser les résultats de la recherche.
  • Comment constitue-t-on des ressources linguistiques  ?

    Constituer des ressources linguistique consiste à recueillir des données " authentiques ", d'ordre général ou appartenant à un secteur d'activités particulier, directement sous forme numérique, ou, dans certains cas, en les numérisant.
    Dans la plupart des cas, ces données subissent ensuite un traitement qui facilite leur utilisation :

    • marques de structuration des textes (mots, phrases, paragraphes, etc.),
    • marques morphosyntaxiques, sémantiques...

    Différents types de codages existent :
    le plus récent est la TEI (Text encoding initiative).

    L'accès multilingue aux bases de données :
    Définition
    Enjeux, possibilités et limites.