




|
Pour en savoir plus sur :
L'accès multilingue aux bases de données :
Définition
Enjeux, possibilités et limites
TEI (Text encoding initiative)
Bibliographie
|
Les ressources linguistiques : les corpus
Pour développer les outils de traitement informatique du langage,
les chercheurs et les industriels ont besoin de recueillir de grandes quantités de textes écrits et oraux numérisés et codés
pour pouvoir se fonder sur l'usage réel de la langue. Nous devons veiller à ce que ces ressources
linguistiques existent et soient disponibles pour le français.
Les ressources linguistiques sont des recueils de données
informatisées de productions langagières écrites
ou parlées.
|
|
|
Que sont les ressources linguistiques ?
Autres types de ressources linguistiques :
- Les lexiques, les dictionnaires et les grammaires électroniques.
- Les ressources terminologiques : dictionnaires, lexiques
ou banques de données de vocabulaires spécialisés,
mono ou multilingues.
À quoi servent les ressources linguistiques ?
Comment constitue-t-on des ressources linguistiques ?
Constituer des ressources linguistique consiste à recueillir
des données " authentiques ", d'ordre
général ou appartenant à un secteur d'activités particulier,
directement sous forme numérique, ou, dans certains cas,
en les numérisant.
Dans la plupart des cas, ces données subissent ensuite
un traitement qui facilite leur utilisation :
marques de structuration des textes (mots, phrases, paragraphes,
etc.),
marques morphosyntaxiques, sémantiques...
|