Les dossiers numériques de l'Inventaire

Techniques mises en œuvre

Les dossiers de l'Inventaire général obéissent tous à une structure bien précise et sont réalisés selon une méthode d'étude topographique.

Les projets de recherche qui ont conduit à la réalisation de ce serveur avaient pour but la conception d'outils permettant la production de dossiers numériques, en préservant la méthodologie d'étude de l'Inventaire général et la structure des dossiers.

La plate-forme de production

Les dossiers numériques sont produits selon la norme internationale SGML (Standard Generalized Markup Language, ISO 8879). Ils sont conformes à une DTD SGML (structure type de documents) conçue dans le cadre du projet, dénommée CI (Classeur d'Inventaire), dont la version courante utilisée ici, porte le numéro V2.01.

Il existe de nombreux éditeurs SGML qui peuvent être utilisés pour produire des documents tels que les dossiers d'Inventaire. Lors de notre étude, il est apparu qu'un éditeur n'était pas un outil suffisant pour répondre aux besoins des producteurs de ces dossiers. Cette production présente trois grandes caractéristiques qui rendent nécessaires - ou à tout le moins très utile - de disposer en outre d'outils de gestion des composants informationnels qui vont être inclus dans les dossiers en construction. Ces caractéristiques sont :

  • La réutilisation systématique d'informations extraites de systèmes d'information numérique variés : bases de données documentaires, bases de données géographiques, serveurs de dossiers SGML (pour la réutilisation de parties de dossiers existants), répertoires de fichiers gérés par des systèmes d'exploitation divers, etc.
  • Une structuration des dossiers en de nombreuses entités physiques. Comme le montrent les dossiers de ce serveur, un dossier peut "contenir" de nombreuses illustrations qui sont autant de fichiers, différents de celui qui contient le document SGML principal.
  • Une production coopérative, asynchrone, étalée sur plusieurs semaines ou mois. La production est coopérative car plusieurs personnes d'un service régional de l'Inventaire participent à une enquête topographique et produisent des composants de dossiers. Elle est asynchrone car ces personnes n'interviennent pas dans le même ordre et qu'elles ne peuvent coordonner leurs tâches que de façon souple. Elle est étalée dans le temps, une enquête topographique pouvant durer plusieurs mois, voire années, durant lesquels de nombreux dossiers seront produits de manière non séquentielle.
  • En conséquence, les informations qui sont produites en vue de leur inclusion dans les dossiers sont accumulées progressivement, dans un ordre qui reflète la méthodologie de l'étude, mais qui diffère de celui dans lequel elles apparaîtront dans le dossier final. De plus, de nombreuses informations (par exemple des photographies) sont produites, indexées, sans forcément être reprises dans les dossiers.
    Toutes ces caractéristiques ont conduit à mettre en place une base locale de composants informationnels, qui va gérer les entités qui vont être créées puis éventuellement incluses dans un ou des dossiers.
    La plate-forme de production intègre donc :
  • un éditeur SGML. Nous avons choisi un éditeur professionnel doté d'un mécanisme puissant de formatage, permettant si nécessaire de produire des versions imprimées de haute qualité des dossiers SGML ;
  • une base de données gérant des composants informationnels réutilisables ("entités" au sens de SGML), y compris des dossiers déjà créés ;
  • des mécanismes d'importation permettant de récupérer des informations dans d'autres bases de données non SGML (base topobibliographique, base géographique, base illustration).
  • Dire que ces composants logiciels sont intégrés signifie notamment pour l'utilisateur qu'il peut aisément insérer, dans un dossier en cours d'édition, des entités d'information provenant des diverses bases de données. Il lui est également possible de rechercher des dossiers existants dans sa base locale, et de copier-coller des éléments SGML d'un dossier à un autre.

    Les transcodages

    Transcodage de SGML vers XML

    Les dossiers peuvent être archivés, localement ou nationalement, sous leur forme SGML. Pour leur distribution publique en ligne ou hors ligne, il sont transcodés en XML (Extensible Markup Language). XML est une norme industrielle, définie par le consortium industriel W3C. C'est une simplification et une adaptation de SGML en vue de son utilisation sur les réseaux.

    Le transcodage des documents SGML vers XML se fait en deux étapes : normalisation SGML (avec l'outils SX de James Clark), puis traitement ad hoc des petites différences syntaxiques existantes entre SGML et XML (génération des liens XLink, génération des informations de codage de caractères, etc.).

    Transcodage de XML vers HTML

    Ce serveur a été réalisé durant l'été 1998, époque à laquelle il n'existe pas encore de navigateurs XML de grande diffusion. Pour permettre de lire aisément les dossiers avec un logiciel "standard", nous les avons transcodés en HTML. Cette opération a été réalisée à l'aide d'un processeur XSL (Extensible Style Language), piloté par une feuille de style XSL. Après divers essais, nous avons utilisé les processeurs XSL Koala Xsl engine et XT.

    L'indexation des dossiers

    Lorsque le nombre de dossiers est important, la navigation hypertexte ne suffit plus pour découvrir aisément ce qui correspond aux intérêts du lecteur. Il faut en outre construire un index et offrir la possibilité de formuler une recherche d'information utilisant cet index.

    Dans le cadre de notre projet de recherche, la société Euroclid a développé un système d'indexation de documents XML en vue de leur distribution en ligne : XML-Server. Il est désormais proposé comme un produit industriel.

    Pour ce serveur, la même solution a été retenue. Le moteur d'indexation est Search'97, produit developpé par la société Verity. Il permet non seulement d'effectuer des recherches en texte intégral mais également d'utiliser la structure des documents avec des opérateurs comme , permettant de restreindre le domaine de recherche à un élément ou un bloc d'éléments.