Ingénierie linguistique - les ressources linguistiques :

TEI - Text encoding initiative

par Laurent Romary (CNRS-Loria) et Henri Hudrisier (Université de Paris 8)

Définition rapide de la TEI ("Text Encoding Initiative")

La TEI que l'on pourrait traduire par groupe d'initiative pour le balisage normalisé des textes est une norme de balisage, de notation et d'échange de corpus des documents électroniques fondée sur le SGML. Elle s'est élaborée pragmatiquement à partir des besoins de structuration, de conceptualisation et de mise en réseau de textes.
À partir des premières hypothèses élaborées dans la réunion du Vassar College (Poughkeepsie, New York 1987), un long travail de recherche de consensus entre scientifiques intéressés par l'étude des textes (spécialiste de littérature, historien, sociologue, linguiste, ethnologue, philosophe...) a permis de définir un ensemble de recommandations de codage : " Les recommandations de la TEI " (le guideline TEI).
Les chercheurs présents à Vassar sont tombés d'accord sur la nécessité de travailler à la définition d'un nouveau format de codage des textes électroniques et en ont posé les principes de base. Le nouveau format devait être aussi complet que possible :

  • être simple, clair et concret,
  • être facile à utiliser sans logiciel particulier,
  • être rigoureusement défini,
  • permettre un traitement efficace,
  • être ouvert à des extensions définies par les utilisateurs,
  • être compatible avec les standards existants ou en développement.

    L'hypothèse majeure de ces chercheurs est qu'il est possible d'utiliser la démarche SGML pour baliser des textes et noter de façon normalisée les éléments décrits par ce balisage. Ce balisage s'organise selon deux types d'éléments :

    • le noyau : ce sont des balises et des éléments communs à toutes disciplines. Par exemple, la structure en division et paragraphes, la description documentaire du contenu, etc...
    • les balises et éléments propres à des disciplines : ils permettent de travailler sur le théâtre, la poésie, les dictionnaires, l'histoire...

    Le balisage TEI s'organise aussi selon deux champs complémentaires mais distincts :

    • l'en-tête (header) qui constitue une codification non seulement de la source du document (un livre édité sur papier par exemple) mais de sa transcription numérique (personne et institution responsables de la transcription, format de transcription, date, mode de disponibilité, versions et mise à jour etc... Codification selon des modes de description qui peuvent être en partie automatisés pour transformer des données bibliographiques traditionnelles.
    • le balisage proprement dit du document. Celui-ci peut se contenter d'être relativement léger et strictement formel, ce qui permet d'échanger des références ou des corpus. Dans d'autres cas la TEI peut devenir le support de description beaucoup plus fines dans lesquelles on liera le fond et la forme du document (les études littéraires théâtrales ou poétiques sont un bon exemple de ce type de traitement.

    Enjeux et disciplines concernés

    La TEI a été mise au point pour que des chercheurs, au début surtout des chercheurs en sciences humaines, puissent échanger non seulement les corpus de textes, mais aussi pour qu'ils puissent disposer en commun d'un système de balisage et d'annotations normalisé. SGML, comme on le sait est à l'origine un balisage issu de l'organisation des textes nécessaires aux éditeurs. Le noyau de la TEI reprend les éléments d'analyse nécessaires pour décrire la structuration fonctionnelle d'un texte (titre, avertissement, préface, corps du texte décomposé en chapitres et sous chapitres, index table des matières etc.).

    Selon la discipline à laquelle appartient un chercheur utilisant la TEI, il lui sera ensuite commode d'utiliser au-delà de ce noyau les éléments de niveau disciplinaire qu'il jugera utile à sa recherche. L'aménagement de textes par des chercheurs selon la norme TEI permet dès lors que des chercheurs en littérature, en histoire, en ethnologie, etc. puissent ainsi dans leur discipline propre, et hors de leur discipline, procéder à des échanges de corpus comprenant aussi bien les textes que leurs annotations conceptuelles.

    On comprend ainsi que la TEI, contrairement à ce que certains pensent parfois, est beaucoup plus qu'un simple format d'échange de gros corpus de textes. C'est aussi un potentiel d'échange et d'accumulation des apports d'autres chercheurs en sciences humaines. Avant la TEI cette transmission ne pouvait se faire que par la lecture et la digestion des articles et ouvrages, suivies d'une reprise des éléments du corpus selon les résultats transmis par ces articles et ouvrages. La TEI ne dispense pas de lire nos collègues, bien au contraire, mais elle nous permet, comme en sciences exactes de disposer directement et de façon normalisée des textes travaillés selon les hypothèses d'autrui.

    Intérêts, difficultés, opportunités, questions

    • ENJEUX FRANCOPHONES
      La TEI a montré en Anglophonie qu'il était possible de normaliser l'échange de corpus et l'analyse conceptuelle des documents dans la bibliothèque virtuelle, conduisant à des projets ambitieux de données textuelles (comme le " Model Edition Partnership " pour les documents historiques et le " Women Writers'Project "). Cependant la Francophonie reste globalement à l'écart de ce mouvement à l'exception des travaux de la BNF, de l'INATHeQUE et de Silfide :
      • Ceci est fortement dommageable pour l'avenir des sciences humaines et particulièrement des études littéraires francophones.
      • Ceci a aussi pour conséquence que les sciences de la documentation et de la bibliothéconomie prennent chez nous un très grand retard.

    • ENJEUX INDUSTRIELS
      La TEI n'est certes pas née en milieu industriel, mais SGML qui est à la base de la TEI, est né en milieu industriel.
      • Des questions du même ordre se posent dans l'audiovisuel, dans le commerce et l'institution.
      • Comme dans le domaine scientifique, on assiste à une normalisation galopante des "méthodes humaines" du commerce et de l'industrie.
      • La TEI, née et adaptée aux sciences humaines est donc un lieu de réflexion et de développement logiciel bien approprié à cette évolution.
      • Ceci a aussi une influence sur le développement des nouveaux réseaux que permettront la modernisation des structures logiques d'Internet, modernisation à la base de laquelle nous trouvons un certain nombre de fondateurs de la TEI.

    • ENJEUX PEDAGOGIQUES
      La TEI et particulièrement démonstrative des nouvelles tendances de l'information à se composer selon des modes d'ingénieries basés sur le document structuré. Cela rebondit sur les questions suivantes :
      • comment développer des campus universitaires virtuels? Le réaliser dans la dimension d'échange de corpus, d'échange de concepts et de dynamique interdisciplinaire.
      • Comment gérer la multiplicité des intervenants et leurs niveaux d'intervention ? Comment certifier les flux d'informations depuis la représentation alphanumérique jusqu'à leur certification de conformité TEI (elle-même hiérarchisée selon ses niveaux structurels : entêtes, noyau, balises optionnelles, balises spécifiques permettant de spécifier des disciplines, des langues, des niveaux d'usage...) ?
      • quel avenir pour les bibliothèques virtuelles ? Comment rétribuer des droits d'auteur, qualifier de droits patrimoniaux ou des confidentialité de recherche?

    • ENJEUX MULTILINGUES, ENJEUX MULTIMEDIA, MISE EN PARALLELES DE DOCUMENTS
      Les corpus multilingues posent problème chaque fois que la langue française est en synergie avec ses langues partenaires : partout dans le monde ou à l'intérieur de chaque Etat (par exemple en France dans le cas des écoliers, des étudiants ou des travailleurs qui parlent en famille une autre langue que le français). La TEI ou les savoir-faire de structuration par facettes des documents et leur mise en parallèle seront un savoir-faire indispensable lorsque le réseau Internet multipliera les échanges multilingues.
      1. Nous devrons alors savoir mettre en parallèle des corpus comportant plusieurs langues et plusieurs écritures.
      2. Dans un ordre d'idée analogue l'émergence future de la norme MPEG7 exigera des savoir-faire de mise en correspondance d'un script audiovisuel ou multimédia avec le document.
      La TEI n'est pas seule à même de répondre à ces questions mais elle préfigure un type d'usage de l'information structurée. Dans le champs des sciences humaines, où les consensus de méthodes sont difficiles voire exceptionnels la TEI à permis à une communauté importante de chercheurs de se maintenir depuis plus de 10 ans.

    Limites actuelles

    Pour ceux qui ont utilisé ou vu des démonstrations du poste LAO (BNF) ou de la SLAV (INATHEQUE, dépôt légal audiovisuel français), il faut considérer que la TEI est une norme qui permet de faire des annotations, structurations, ou marquages comme le permettent ces outils, mais la TEI permet en outre d'échanger en réseaux les résultats de ces lectures savantes. En allant vite, on pourrait dire que les travaux de l'Inathèque et de la BnF se sont surtout attachés à créer des interfaces hypermédia ergonomiquement séduisantes pour la lecture savante, sans préjuger des typologies du chercheur et en reportant à plus tard la problématique réseau.
    La TEI s'est attachée au contraire à répondre en priorité à ces deux dernières questions, mettant entre parenthèses la première question pourtant primordiale. Par principe, la TEI ne préjuge d'aucun matériel : c'est ce qui fait son succès, mais aussi son talon d'Achille. Du fait de la relative difficulté à disposer d'interfaces conviviales, la TEI a du mal à pénétrer le milieu qui devrait être le sien : celui des sciences humaines.

    Perspectives de développement, voie de recherches et domaines d'utilisation

    Il se développe actuellement

    • des projets sectoriels visant à affiner les balises actuellement définies dans le TEI guideline.
    • des projets visant à constituer des corpus sous format TEI à l'échelle internationale.
    • des projets prenant en compte les nouvelles caractéristique du codage de base des textes (passage de l'ASCII 7 bits à Unicode)
    • des projets intéressant des usages autres que la lecture savante.

    Pour disséminer une nouvelle technique (la TEI, la bibliothèque virtuelle en réseaux) et de nouvelles formes de ressources (numériques et structurées) trois conditions doivent être remplies :

    • disposer d'une communauté d'utilisateurs informés des potentialités nouvelles ouvertes par cette nouvelle approche : virtualité, coopération collective planétaire, exhaustivité, mise en conformité des données, ouverture vers de nouvelles méthodes (en bref formés aux nouveaux paradigmes de la bibliothèque virtuelle). Pour cela il faut donc former des étudiants à la TEI vue comme " culture générale de l'information ".
    • Offrir à nos utilisateurs potentiels des outils conviviaux, faciles à utiliser, adaptables à leurs problèmes spécifiques. Pour cela les séminaires de formation, de recherche, de concertation sont le lieu idéal pour évaluer les outils existants, recueillir les desiderata et susciter l'expression de nouveaux besoins en ergonomie, en traitement des données, tout en permettant la détection des blocages de l'usager. Ce deuxième axe du projet est celui du développement technologique sur les postes de travail, le réseau et l'organisation des données. XML est le support technique idéal de cette évolution des interfaces.
    • Disposer d'une masse critique de données, culturellement et linguistiquement représentative.

    Depuis le début de l'année 1998 un consortium international de la TEI est en charge de la pérennisation et de la mise à jour de ses directives. On vise ainsi à déboucher sur des architectures beaucoup plus modulaires qui profiteront notamment des facilités ouvertes par XML.
    Les travaux de ce consortium TEI sont consultables à l'adresse Internet : http://www.tei-c.org