




|
Ingénierie linguistique
L'accès multilingue aux bases
de données - enjeux, possibilités et limites
Quelques réflexions recueillies auprès de Christian Fluhr, conseiller scientifique auprès de la direction de l'information scientifique et technique du Commissariat à l'énergie atomique (CEA)
Pourquoi l'accès multilingue aux bases de données est-elle un enjeu pour le CEA ?
C. Fluhr : La mémoire du CEA est constituée de tous les écrits des spécialistes qui y travaillent. Or, ces derniers rédigent autant en anglais qu'en français. De même, ils accèdent à cette "mémoire" dans les deux langues. Il nous faut donc disposer d'outils qui permettent de retrouver tous les ouvrages ayant trait à un sujet particulier, qu'ils soient en anglais ou en français, et quelle que soit la langue dans laquelle a été exprimée la recherche. De plus, comme tous les scientifiques au monde, les spécialistes du CEA doivent être capables de se tenir au courant de l'évolution de leur discipline. Ils doivent pour cela faire une veille technologique et stratégique sur de nombreuses bases de données et sur le réseau où l'information devient de plus en plus multilingue.
Techniquement, comment s'effectue cet accès multilingue ?
C. Fluhr : Très schématiquement, pour une question posée en français, par exemple, le moteur de recherche piste l'information dans la bases de données du CEA sur tous les élements existant dans cette langue. Parallèlement, il traduit la question et mène une recherche dans cette même base, mais sur les documents en anglais. Il affiche un résultat issu d'une synthèse de ces deux recherches.
Existe-t-il d'autres méthodes ?
C. Fluhr : Oui, aujourd'hui, sur le réseau internet par exemple, la méthode la plus courante consiste tout simplement à mener sa recherche dans la langue du document recherché et à faire traduire le résultat obtenu par un système automatique. Bien entendu, si vous avez la chance de maîtriser d'autres langues, il est avantageux de faire sa recherche avec les mots-clés appartenant à ces langues. Souvent, face au nombre très important de réponses obtenues, il peut être intéressant de faire un "raffinage" a posteriori.
Que peut-on attendre des systèmes qui viendront à l'avenir ?
C. Fluhr : Il y a plusieurs voies dans lesquelles on peut espérer des progrès. D'abord du côté de systèmes capables de s'autoaméliorer. J'entends par là ceux qui travaillent sur la langue telle qu'ils l'"observent" dans des corpus de textes et non pas construits sur une connaissance préalable et introspective de la langue. Avec de tels systèmes, plus le corpus est grand, plus l'algorithme s'améliore et plus la recherche est performante. Ils s'appuient sur l'expérience réelle qu'ils acquièrent au contact des textes et des corpus, au contact de la langue telle qu'elle est vraiment utilisée par une communauté. Ils développent ainsi une démarche très pragmatique. La sémantique est une autre voie porteuse de promesses. On attend d'elle qu'elle puisse un jour résoudre le problème de l'ambiguité sémantique, en prenant notamment compte du contexte, et qu'elle nous aide à analyser le discours, c'est-à-dire à comprendre sa structure argumentative, autrement dit les motivations de son auteur. Une autre méthode nous intéresse dont il n'existe pour l'instant que des prototypes bien avancés : elle consiste à faire traduire la question par un traducteur automatique. Une fois la recherche terminée, reste alors bien sûr à faire traduire le résultat. La pertinence de ce dernier dépend étroitement de la qualité du système de traduction automatique. En effet, les choix qu'il opère, en amont, lors de la traduction de la question, sont déterminants. Enfin, quand on dispose d'une base constituée de documents partiellement traduits ou traitant des mêmes événements, on peut placer beaucoup d'espoir dans des systèmes qui effectuent des rapprochements sémantiques entre les différents corpus constitutifs de la base. La question déclenche alors une recherche de contextes pour ainsi dire. Cette méthode ne fait appel ni à des systèmes de traduction, ni à des dictionnaires.
L'accès multilingue aux bases de données :
Définition
Différents types de codages existent :
le plus récent est la TEI (Text encoding initiative).
|