précédent Journée d'étude sur la documentation informatisée ~ 19/11/99 suivant

 

La documentation structurée

Par Antoine Rizk
Responsable du DESS ingénierie documentaire et multimédia de l’Université d’Evry Val d’Essonne
Société Euroclid, partenaire du programme Médiaculture/Dossier électronique



En introduction, quelques données statistiques provenant des Etats-Unis, soulignent l’importance prise par la production, le traitement et la diffusion d’informations dans la société d’aujourd’hui.

  • La production de l’information par les entreprises et les administrations représente 20 % du PNB,
  • 90 % de la documentation n’est pas structurée,
  • Le temps consacré à la production ou à la recherche de l’information est important,
  • Le contexte technologique évolue rapidement.

1. XML (eXtensible Markup Langage)

Des solutions techniques en vue d’organiser l’information ont été recherchées dès les années 60 avec le langage GML (Generalized Markup Langage), balisage généralisé, qui a donné naissance à SGML (Standard Generalized Markup Langage), norme existant depuis 1986, dont le domaine d’application est resté limité à la documentation technique et à l’informatique éditoriale.

Avec l’arrivée du Web et l’émergence du langage HTML (HyperText Markup Langage), qui a rapidement été rendu compatible avec SGML, un nouvel essor a été donné à SGML. Le besoin d’un méta-langage adapté au web est à l’origine de la création de XML, sous-ensemble de la norme SGML. XML est ainsi une double norme, en tant que recommandation du Consortium W3C et en tant que sous-ensemble d’une norme ISO.


[schéma 1]

1.1 Les avantages d’XML sont :

  • L’amélioration de la productivité.
  • L’indépendance de l’aspect physique du document vis à vis de sa structure logique (le document devient manipulable selon le profil de l’utilisateur et selon la plate forme d’exploitation).
  • La pérennité de l’information, XML rend possible un retraitement des données sur les plates formes du futur.

47 % des entreprises interrogées pensent utiliser XML dans les années à venir. XML sera la norme du commerce électronique. 47 % des entreprises comptent passer à Linux, qui cohabitera avec d’autres systèmes d’exploitation.

Les langages d’avenir sont : Java, langage de programmation multi-plateforme et XML, langage de structuration des données.

Après l’arrivée en février 1998 d’XML, la norme XSL (eXtensible Style Langage) est maintenant adoptée.


[schéma 2]

Schéma 2 : A un fragment d’information XML est associée une feuille de style XLS. Les deux sources, XML ou XSL sont indépendantes ; elles passent dans un transformateur XSL (formating object) et ensuite par un interpréteur pour un affichage dans des formats divers (HTML, Word, Audio etc.).

 


[schéma 3]

Schéma 3 : Exemple d’association XML XSL mise en œuvre dans une architecture typique : le portail cherche l’information dans des bases de données hétérogènes, extrait un fragment de l’ensemble sur le portail et effectue une présentation selon la demande de l’utilisateur. L’arrivée des données sur le portail se fait en XML. Les requêtes du portail vers ces systèmes hétérogènes se feront dans le langage de requête natif de ces systèmes (SQL…) ou par des requêtes Z 39-50 (la question est encore en suspens) ou en interrogeant l’information HTML à la manière des moteurs de recherche tels " Altavista ", mais avec une structure plus riche.

Un système de fichiers XML présente beaucoup d’avantages, comme en témoigne l’application sur le patrimoine historique de la ville de La Rochelle. Si l’interrogation s’effectue avec un formulaire structuré, comme dans les bases de données traditionnelles, la différence réside dans le fait que l’information n’est pas dans un système de bases de données mais dans des fichiers au format XML dont le nombre et le volume sont illimités.

1.2 Les limites d’XML

XML traite la structure syntaxique des documents mais ne permet de spécifier ni la sémantique d’une balise, ni le typage de son contenu, ni des relations normalisées entre les balises.

2. Autres normes utilisées

XLL pour la création de liens hypertextes (liens simples et étendus, multiples vers des destinations d’information différentes). Il est possible de représenter des liens hypertextes sans toucher à la source du lien ni à sa destination.

RDF (recommandation depuis 1999) spécifie les métadonnées,

XML Data, pour le typage des contenus des éléments,

Topics Maps, norme ISO basée sur SGML et HyTime, se fondant sur les mécanismes d’XLL. Concernant les liens, il est possible de typer les relations et de mettre les Topics en relation entre eux pour construire des strates d’information et bâtir des domaines de connaissances.

L’objectif est de pouvoir organiser l’information sans tomber dans les travers actuels d’HTML. Une situation comparable risque de se produire lorsque des centaines de milliers de DTD seront utilisées. Il est impératif d’organiser des strates d’information dès aujourd’hui, au moyen de la définition d’une ontologie et de l’organisation de systèmes de navigation de type Topics Maps. L’ontologie pourra être associée à un thésaurus, permettant la création de schémas automatiques RDF. Un langage commun pour définir les données verra le jour progressivement.


[schéma 4]

Schéma 4 : Aujourd’hui on sait stocker l’information monomédia, l’indexer, l’organiser, bâtir une structure syntaxique (XML, XSL). Demain le langage XQL (équivalent de SQL pour les données en XML natif) permettra d’interroger des bases XML de manière riche portant sur la structure de l’information. Il sera ainsi possible de mettre en place rapidement des outils de production et de publication.

 

L’enjeu de la recherche (d’ici à dans trois ans) est l’organisation des données XML dans des systèmes d’intermédiation (thésaurus, ontologie, RDF). Le document n’est plus à penser comme un fragment d’information isolé, mais en tant qu’entité en relation avec d’autres documents, de manière à concevoir un réseau de connaissances autour d’XML, Internet et RDF.


 

précédent Journée d'étude sur la documentation informatisée ~ 19/11/99 suivant