




|
Ingénierie linguistique - les enjeux :
L'indexation automatique - enjeux, possibilités et limites
Quelques réflexions recueillies auprès de Bruno Bachimont, Institut national de l'audiovisuel (INA)
Définition du domaine : à quoi sert-il ?
L'indexation consiste dans le fait de décrire un ou des documents dans une forme simple et manipulable pour rendre ces documents exploitables pour un usage donné. L'usage le plus habituel est la recherche documentaire : un document est décrit par une séquence structurée ou non de mots clefs ou descripteurs ; cette séquence constitue l'index du document. Quand on
recherche un document, on exprime sa requête sous la forme d'une séquence de descripteurs empruntés au même vocabulaire que celui utilisé pour l'indexation, et on compare ensuite la requête et l'index des documents pour proposer les documents dont l'index coïncide tout ou partie avec la requête.
Classiquement, l'indexation porte sur un document dans son intégralité, dont on formalise globalement le contenu : dans un premier temps on analyse le contenu selon l'usage visé, dans un second temps on reformule l'analyse effectué dans le vocabulaire contrôlé, simple et manipulable, pour obtenir l'index du document. Si l'indexation est globale, c'est que longtemps les contenus indexés étaient des livres ou documents papiers, et qu'il n'était pas possible de manipuler une partie du document sans avoir à en manipuler le tout : le bibliothécaire ou le documentaliste utilise l'index pour
sortir le livre du rayonnage.
La numérisation massive des contenus et des outils d'indexation et de consultation a profondément modifié la perspective. D'une part, sur un même support numérique cohabitent les documents décrits et les index. D'autre part, on peut manipuler une partie du document indépendamment du document lui-même. Par conséquent, il devient possible et nécessaire d'indexer non pas le document dans son intégralité, mais les segments du document qui seront utiles pour l'usage visé : la manipulation de l'index permet de manipuler directement le segment décrit. On peut alors envisager de nouvelles applications, par exemple éditoriales, où les segments indexés sont recombinés en faisant un calcul sur les index pour constituer de nouveaux documents. L'index devient par conséquent une poignée par laquelle le système d'information peut saisir le segment indexé pour l'exploiter. On peut parler alors de "méta-données", c'est-à-dire de données de description se rapportant à des données décrites et permettant de les exploiter.
Méthodologie: quelles sont les techniques mises en œuvre ?
Les deux problèmes constitutifs de l'indexation sont d'une part de poser les index correspondant à un document ou à ses parties, et d'autre part d'exploiter ces index dans le cadre d'une recherche. L'indexation repose sur deux types d'approche, les approches manuelles ou les approches automatiques. Les approches manuelles consistent à associer à un segment un descripteur conceptuel, en général emprunté à un thesaurus, accompagné selon le cas de texte libre ou non. L'intérêt de l'indexation manuelle est qu'un opérateur humain analyse et interprète le contenu pour le synthétiser et le reformuler. L'indexation automatique repose sur des algorithmes associant automatiquement des descripteurs à des parties de document. Dans le cas des documents textuels, chaque mot est potentiellement un index du paragraphe qui le contient. En éliminant les mots "vides" ou "creux", comme les conjonctions, pronoms, etc., ces outils construisent des tables où chaque terme réfère aux parties du/des document/s qui le contienne.
Dans le cas des documents sonores, vidéos et des images, la situation est plus complexe car le document ne se décompose pas en unités facilement repérables comme des chaînes de caractére séparées par des blancs. Il faut donc disposer d'outils capable de segmenter le contenu et de le qualifier : repérer par exemple que du temps T1 au temps T2, c'est un même locuteur qui s'exprime, et il s'agit de Jacques Chirac. Ou bien encore, que la zone correspondant à telles ou telles coordonnées dans l'image est Jacques Chirac. De nombreuses recherches sont effectuées sur ce domaine : repérer les plans d'un document, les séquences ou macrosegments, les changements de locuteurs, leur reconnaissance, etc. Ces travaux sont encore inauguraux et ne permettent pas encore de construire une ingénierie à l'instar de l'ingénierie textuelle et documentaire.
La recherche consiste à retrouver les parties de document dont l'index est proche des termes composant la requête effectuée. Les techniques portent sur l'établissement de la proximité entre requête et index : techniques de la langue pour établir si un terme de la requête est proche ou non d'un terme de l'index (proximité morphosyntaxique : "fermer" est proche de "ferment", ou sémantique : "subvention" est proche de "dotation"), techniques du son et de l'image pour établir la similarité entre un descripteur physique du document et la valeur de l'index.
Enjeux : quels sont les usages possibles maintenant et demain ?
Les enjeux sont multiples. Pour les documents audiovisuels, le numérique introduit une situation nouvelle où les documents audiovisuels sont directement confrontés à leur indexation sur un même support numérique, accessibles à un même système informatique. Alors que jusqu'à présent l'audiovisuel analogique contraignait le contenu à s'inscrire sur un support spécifique et isolé de sa documentation, désormais document et documentation interagissent dans un même système d'information. Se développe ainsi à travers l'indexation de ces documents la promesse d'une ingénierie documentaire et de nouvelles applications éditoriales. Parmi les principales innovations, on peut citer :
- les bases de d'images, de sons et de vidéos, dans des systèmes de catégorisation ou classification ;
- des chaînes éditoriales permettant de produire autant d'instances de document pour un type donné défini dans les termes de l'indexation.
Limites : que peut-on attendre des systèmes qui viendront dans l'avenir?
Les principales limites concernent aujourd'hui l'indexation automatique. En effet, les algorithmes exploitent l'information contenue dans dans les documents alors que l'interprétation doit se guider depuis l'information contextuelles accessible hors des documents. Alors que l'interprétation va de la globalité du contexte à la localité du contenu, l'analyse automatique procéde des unités locales composant le contenu vers la globalité du document. Cette situation est en théorie indépassable. On obtient de manière automatique des descripteurs qui reflètent le contenu physique des documents, et l'indexation manuelle permet d'obtenir des concepts interprétant le document dans son contexte. Il y a donc un gouffre sémantique entre les descripteurs physique de l'analyse automatique et les concepts sémantiques de l'interprétation manuelle.
En pratique, les travaux en cours consistent à paramétrer les outils d'analyse par la connaissance a priori dont on dispose sur le contexte des documents. En particulier, la production des documents suit des normes, des contraintes que l'on retrouve dans la structure et le contenu des documents. C'est ainsi que l'on sait qu'un journal télévisé est construit toujours de la même façon. Cette connaissance peut être mobilisée pour reconnaître plus facilement les séquences composant le journal et leur nature.
|