Les dossiers de l'Inventaire général obéissent tous à une structure bien précise et sont réalisés selon une méthode d'étude topographique.
Les projets de recherche qui ont conduit à la réalisation de ce serveur avaient pour but la conception d'outils permettant la production de dossiers numériques, en préservant la méthodologie d'étude de l'Inventaire général et la structure des dossiers.
Il existe de nombreux éditeurs SGML qui peuvent être utilisés pour produire des documents tels que les dossiers d'Inventaire. Lors de notre étude, il est apparu qu'un éditeur n'était pas un outil suffisant pour répondre aux besoins des producteurs de ces dossiers. Cette production présente trois grandes caractéristiques qui rendent nécessaires - ou à tout le moins très utile - de disposer en outre d'outils de gestion des composants informationnels qui vont être inclus dans les dossiers en construction. Ces caractéristiques sont :
En conséquence, les informations qui sont produites en vue de leur inclusion dans les dossiers sont accumulées progressivement, dans un ordre qui reflète la méthodologie de l'étude, mais qui diffère de celui dans lequel elles apparaîtront dans le dossier final. De plus, de nombreuses informations (par exemple des photographies) sont produites, indexées, sans forcément être reprises dans les dossiers.La réutilisation systématique d'informations extraites de systèmes d'information numérique variés : bases de données documentaires, bases de données géographiques, serveurs de dossiers SGML (pour la réutilisation de parties de dossiers existants), répertoires de fichiers gérés par des systèmes d'exploitation divers, etc. Une structuration des dossiers en de nombreuses entités physiques. Comme le montrent les dossiers de ce serveur, un dossier peut "contenir" de nombreuses illustrations qui sont autant de fichiers, différents de celui qui contient le document SGML principal. Une production coopérative, asynchrone, étalée sur plusieurs semaines ou mois. La production est coopérative car plusieurs personnes d'un service régional de l'Inventaire participent à une enquête topographique et produisent des composants de dossiers. Elle est asynchrone car ces personnes n'interviennent pas dans le même ordre et qu'elles ne peuvent coordonner leurs tâches que de façon souple. Elle est étalée dans le temps, une enquête topographique pouvant durer plusieurs mois, voire années, durant lesquels de nombreux dossiers seront produits de manière non séquentielle.
Dire que ces composants logiciels sont intégrés signifie notamment pour l'utilisateur qu'il peut aisément insérer, dans un dossier en cours d'édition, des entités d'information provenant des diverses bases de données. Il lui est également possible de rechercher des dossiers existants dans sa base locale, et de copier-coller des éléments SGML d'un dossier à un autre.un éditeur SGML. Nous avons choisi un éditeur professionnel doté d'un mécanisme puissant de formatage, permettant si nécessaire de produire des versions imprimées de haute qualité des dossiers SGML ; une base de données gérant des composants informationnels réutilisables ("entités" au sens de SGML), y compris des dossiers déjà créés ; des mécanismes d'importation permettant de récupérer des informations dans d'autres bases de données non SGML (base topobibliographique, base géographique, base illustration).
Le transcodage des documents SGML vers XML se fait en deux étapes : normalisation SGML (avec l'outils SX de James Clark), puis traitement ad hoc des petites différences syntaxiques existantes entre SGML et XML (génération des liens XLink, génération des informations de codage de caractères, etc.).
Dans le cadre de notre projet de recherche, la société Euroclid a développé un système d'indexation de documents XML en vue de leur distribution en ligne : XML-Server. Il est désormais proposé comme un produit industriel.
Pour ce serveur, la même solution a été retenue. Le moteur d'indexation est Search'97, produit developpé par la société Verity. Il permet non seulement d'effectuer des recherches en texte intégral mais également d'utiliser la structure des documents avec des opérateurs comme