François NAWROCKI
Ministère de la culture et de la communication
Direction du livre et de la lecture
Bureau des politiques documentaires
Mise en ligne le 28 janvier 2005. Dernière mise à jour le 15 février 2005
Le protocole OAI et ses usages en bibliothèque
L'OAI-PMH (Open Archives Initiative’s Protocol for Metadata Harvesting) ou protocole OAI facilite l’échange de données entre des fournisseurs de données (par exemple des bibliothèques ou des musées...) et un fournisseur de service (qui peut être aussi une bibliothèque, un centre de documentation, un portail thématique ou local désirant rassembler des données).
Ce protocole d’échange permet de créer, d’alimenter et de tenir à jour, par des procédures automatisées, des réservoirs d’enregistrements qui signalent, décrivent et rendent accessibles des documents, sans les dupliquer ni modifier leur localisation d’origine.
Grâce au protocole OAI, une bibliothèque agissant en tant que fournisseur de données a la possibilité d’offrir une visibilité accrue à ses documents, notamment à ses publications électroniques ou à ses fonds spécialisés.
Réciproquement, en tant que fournisseur de service, une bibliothèque peut réaliser une base de données ou un portail documentaire dans son domaine de spécialité ou sur un thème quelconque, en collectant les données descriptives de ressources et documents de tous types, accessibles sur l’Internet dans des entrepôts OAI.
Enfin, le protocole OAI permet de faire communiquer entre elles des bases de données diverses et hétérogènes, et donc de réaliser des partenariats entre plusieurs établissements que rapprochent leurs collections (complémentarité des fonds) ou leurs publics (services culturels d’une même collectivité).
Sommaire
Qu’est-ce que le protocole OAI ?
1 Un protocole simple et interopérable pour le partage des données
1.1 Histoire et objectifs du protocole OAI
1.2 Principes fondamentaux du protocole OAI
1.2.2 Principes organisationnels
1.2.3 Aspect techniques de la communication entre moissonneur et entrepôt
2 Concevoir des services OAI en bibliothèque
2.1.1 Quelques exemples d’entrepôts OAI
2.1.2 Le choix du format d’exposition des données
2.1.3 Exposer en Dublin Core des données nativement structurées en format de catalogage
2.2.1 Quelques exemples de moissonneurs
L’OAI-PMH a été élaboré par l’Open Archive Initiative (à l’issue de la Convention de Santa Fe, 1999) pour faciliter la description et la diffusion des métadonnées d’articles scientifiques disponibles en accès ouvert sur Internet, notamment dans des répertoires de pré-publications. Il s’est vite révélé très adapté au partage de métadonnées de documents scientifiques ou culturels, présentes dans des ensembles de ressources homogènes ou hétérogènes, plus ou moins réparties. Après une phase d’expérimentation, le protocole a atteint une certaine stabilité depuis juin 2002, avec sa version 2, considérée comme la spécification définitive.
Ce protocole permet :
On trouvera les spécifications complètes du protocole sur le site de l’OAI, à l’adresse suivante :
http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm
Le protocole OAI s’appuie sur quelques concepts documentaires simples :

Principes conceptuels de l'OAI-PMH
Dans ce contexte, le protocole définit le langage par lequel communiquent le fournisseur de données (entrepôt) et le fournisseur de services (agrégateur), qui rassemble des données collectées par un moissonneur.
Pour alimenter l'agrégateur, le moissonneur visite plusieurs entrepôts, qu'il doit interroger massivement une seule fois ou en plusieurs étapes, pour extraire les enregistrements des items qui l'intéressent.
Après la collecte, le moissonneur dépose les données dans une base que le fournisseur de services rend accessible à ses clients. L'interrogation de cette base est directe et ne sollicite pas les entrepôts d'origine. En effet, l'utilisateur final interroge uniquement le réservoir de notices, constitué par moisson, du fournisseur de service, qui lui retourne en réponse la liste des notices pertinents.
Ce notices proposent notamment un lien hypertexte vers le document primaire, seulement accessible sur le serveur du fournisseur de données : en activant ce lien, l'utilisateur arrive sur le site et dans l'environnement graphique de l’institution productrice, dont le serveur n'est finalement sollicité que pour la fourniture de ce seul document.

Architecture fonctionnelle de services OAI
Le moissonneur soumet des requêtes XML aux entrepôts en recourant aux protocoles http et url, universellement répandus, pour une interopérabilité optimale ; les réponses qu'il reçoit sont également en syntaxe XML.
Les requêtes, dites " verbes" ou " commandes", auxquelles correspondent un ensemble de réponses standardisées, sont au nombre de six. Elles permettent au moissonneur :
Ces requêtes permettent de définir les caractéristiques de l’exploitation que chaque moissonneur fait d’un entrepôt : une fois qu’un entrepôt et son offre documentaire sont identifiés, il appartient au responsable du moissonneur (ou au moissonneur lui-même, automatiquement, selon des critères prédéfinis) de choisir les lots (" sets ") ou la liste des données à collecter, puis la fréquence des visites du moissonneur, qui donneront lieu à des collectes ciblées après chaque mise à jour des données cibles de la collecte.
L’OAI-PMH et la norme Z39-50
Au contraire de portails fédérateurs de ressources ou de catalogues
collectifs reposant sur la norme d’interrogation Z39-50, une base de donnée
constituée par moissons OAI permet au fournisseur de service de rendre
accessibles des données descriptives de documents sans faire peser
une lourde charge sur le serveur de chaque fournisseur de données ;
de plus, le temps de réponse au client final dépend du seul serveur
du fournisseur de service (et non du serveur le moins performant de l’ensemble
des fournisseurs de données, comme c’est le cas dans une architecture
Z39-50).
En revanche, les données exploitées par le fournisseur de service
sont le reflet d’un état figé des données collectées,
en date du dernier passage du moissonneur, alors qu’une interrogation simultanée
de plusieurs bases par transfert Z39-50 permet d’afficher les données
en temps réel. Par conséquent, l’OAI-PMH n’est pas toujours la
solution organisationnelle et technique la plus pertinente pour des entrepôts
dont une part importante du contenu est soumis à des modifications très
fréquentes, par exemple quotidiennes (actualités, œuvres vivantes…).
Pour une bibliothèque cherchant à valoriser et à diffuser largement son offre de contenus électroniques en ligne, la constitution d’un entrepôt OAI est une solution simple à mettre en œuvre. D’autre part, une bibliothèque cherchant un moyen de collecter l’information en ligne pertinente sur un sujet ou un domaine donné trouvera avantage à concevoir et à développer un moissonneur OAI. Le protocole OAI peut donc être utilisé pour des projets très différents, l’une et l’autre approche pouvant être combinées au sein d’un même projet.
Quelques SIGB et logiciels de gestion électronique de documents (par exemple Ex-Libris) ou outils de recherche pour documents XML (plate-forme SDX depuis la version 2.2) commencent à proposer des services OAI. Toutefois, même sans de tels logiciels, de nombreux outils libres répertoriés sur le site de l’OAI, peuvent suffire au développement de services OAI.
Voici quelques exemples pouvant servir de références et quelques conseils pour la constitution d’un entrepôt de données moissonnables selon le protocole OAI et pour l’implémentation d’un moissonneur.
Avant de créer un entrepôt OAI, tout fournisseur de données potentiel doit choisir s’il veut rendre ses données accessibles à tous les moissonneurs OAI qui parcourent la toile ; si tel est le cas, il adopte un modèle partagé d’entrepôt.
En revanche, les fournisseurs de données ne souhaitant pas diffuser leurs métadonnées au-delà d’un cercle restreint de clients bien identifiés, qui sont leurs partenaires dans le cadre d’un même projet et qui leur sont liés par des accords ou par une charte, peuvent adopter un modèle réservé d’entrepôt : seul l’ajout de restrictions d’accès aux contenus différencie ce modèle d’entrepôt du précédent.
Les entrepôts de modèle réservé sont le plus souvent conçus pour alimenter un seul fournisseur de service, par exemple un catalogue collectif, mais ce modèle peut aussi correspondre à une étape intermédiaire d’un projet et se transformer ensuite en entrepôt partagé.
De nombreux entrepôts OAI ont été spécifiquement développés pour l’archivage et la diffusion en ligne des prépublications d’articles scientifiques (E-prints de l’Université de Southampton, ou encore Pubmedcentral) ou des thèses (projet Archimède de l’Université de Laval, dont le logiciel est librement disponible).
C’est aussi le cas en France, où la plupart des entrepôts OAI sont consacrés à des articles scientifiques (Aladin : Accès Libre aux Archives du Dépôt Institutionnel Numérique, de la Maison des Sciences de l’Homme-Alpes développé avec DSpace) ou à des thèses en ligne, comme le projet Cyberthèses de l’Université Lyon-2 ou encore les thèses en ligne des grandes écoles de Paris, Pastel. On trouve également quelques entrepôts OAI voués à l’archivage et à la valorisation de collections documentaires spécifiques, comme l'archive de parole du LACITO (Langues et civilisations de tradition orale) au CNRS.
En dehors de ces domaines, rares sont encore les entrepôts conçus par les bibliothèques françaises. Ils permettraient pourtant d’améliorer le signalement des grands ensembles d’images et de dossiers documentaires mis en ligne par les bibliothèques françaises. À la suite d’autres grandes bibliothèques nationales, comme la Bibliothèque du Congrès qui a rendu moissonnable une grande partie de ses collections numériques d’American Memory, la Bibliothèque nationale de France achève la production d’un entrepôt accessible aux moissonneurs OAI pour exporter les notices, dans une version en format Dublin Core, des monographies de sa bibliothèque numérique Gallica.
L’OAI-PMH à la Bibliothèque
nationale de France
L’entrepôt OAI que la BnF développe pour la bibliothèque
numérique Gallica (serveur accessible aux moissonneurs à l’adresse
suivante : http://oai.bnf.fr/oai2)
sera moissonnable par lots correspondant notamment aux dossiers en ligne et
à une sélection de classes de la classification Dewey ; par
la suite, l’expérience sera étendue aux périodiques, cartes
et plans et autres documents de la bibliothèque numérique, et
peut-être hors du champ de celle-ci, avec les dossiers pédagogiques
et les expositions en ligne. D’autres bibliothèques partenaires, comme
celles du Conservatoire national des Arts et métiers et la Bibliothèque
interuniversitaire de médecine, envisagent de mettre en place des serveurs
OAI pour échanger des notices avec la BnF pour les collections numériques.
Rendre une base documentaire (bibliothèque d’images, base de thèses, base de prépublications ou catalogue de bibliothèque) compatible avec le protocole OAI ne demande pas de modifications profondes de sa structure ni des données qu’elle contient : il suffit d’ajouter une couche supplémentaire permettant d’exposer ses objets documentaires selon des formats prescrits par l’OAI, soit au minimum le Dublin Core non qualifié (schéma oai_dc, publié par l’Open Archive Initiative) et, en complément, sous tout autre format XML pertinent. À la requête ListMetadataformats d’un moissonneur, l’entrepôt doit pouvoir décliner la liste des formats disponibles avec l’adresse à laquelle est accessible la DTD ou le Schéma XML correspondant, car l’OAI accepte toutes les sémantiques utilisées.
Il est donc possible de choisir, en plus du Dublin Core, un autre format XML de données, par exemple BiblioML ou MarcXML (ou encore oai_MARC, basé sur la version 1.1 de l’OAI-PMH, qui se rapproche du Dublin Core par sa simplicité), dans le cadre d’un projet OAI commun entre bibliothèques, à condition de restreindre le nombre des formats autorisés : en effet, plus grande sera la diversité des formats utilisés, plus l’usager final du service verra des restitutions hétérogènes. Toutefois, aucun format n’est aussi optimal pour les échanges que le Dublin Core, directement pris en charge par tous les moissonneurs OAI, qui sera par conséquent jugé suffisant pour la plupart des entrepôts OAI.
Le format Dublin Core ne doit pas nécessairement se substituer aux formats de catalogage. En effet, ce format, pour interopérable qu’il soit, ne suffit pas à tous les besoins de signalement et de description fine de ressources spécialisées : pour des monographies, thèses, manuscrits ouarchives, des formats MARC ou EAD peuvent être mieux adaptés à la description intellectuelle du document. Dans ce cas, il est préférable de ne pas cataloguer des ressources documentaires directement en Dublin Core : ce format ne remplace alors pas la description principale, dont il n’est qu’une " alternative " utilisée pour des besoins d’exportation et de valorisation.
Pour nombre de projets d’entrepôts OAI, il faudra donc prévoir la conversion de notices primaires (UNIMARC par exemple) en format Dublin Core, ce qui peut s’envisager de deux façons :
Le second cas (choisi par la BnF pour Gallica), qui s’impose naturellement pour des ensembles supérieurs à quelques dizaines de notices, nécessite une étude approfondie et le développement d’une application spécifique à chaque catalogue. En effet, il faut tenir compte de l’histoire, des règles et pratiques locales, ainsi que des facteurs d’hétérogénéité de chaque catalogue, notamment pour les correspondances de champs.
Heureusement, on peut s’inspirer de guides tels que celui de la Bibliothèque du Congrès, MARC to DC Crosswalk (et son équivalent pour le passage de Dublin Core à MARC) et utiliser des applications libres (donc modifiables par chaque utilisateur) existantes, par exemple un module de conversion à la volée (depuis MARC 21, en langage de programmation PERL) disponible sur le site du Comprehensive Perl Archive Network (CPAN) ; toutefois, de tels modules doivent être testé avec chaque base et, le cas échéant, adapté aux contraintes particulières de formats et d’usages pour donner de bons résultats. Des études se développent aussi pour définir les correspondances de champs entre le Dublin Core et l’EAD (voir à ce sujet le manuel du logiciel librePLEADE). Dans tous les cas, une phase de tests méthodique s’impose avant validation.
Une fois choisis les formats d’exposition, la " couche supplémentaire " comportant ces spécifications peut être implémentée en suivant, par exemple, le canevas d’OCLC (Online Computer Library Center), OAICat, ou en téléchargeant le logiciel open source Fedora de l’Université Cornell.
Après avoir effectué les opérations nécessaires, il suffit, pour tester la validité du répertoire, d’utiliser les commandes d’un moissonneur (comme exposé au paragraphe 1.2.3) ou d’avoir recours au test en ligne proposé par l’Open Archive Initiative. Ensuite, dès que l’entrepôt contient des données exportables en format Dublin Core, il est conseillé de s’enregistrer comme fournisseur de données auprès de l’Open Archive Initiative et de contacter les fournisseurs de service potentiellement intéressés, qu’il s’agisse d’agrégateurs encyclopédiques (comme OAIster, le moissonneur du Public Knowledge Project, celui de l’ARC, Cross Archive Website de l’Université Old Dominion) ou tout autre fournisseur de service spécialisé.
Il est à signaler qu’un module libre pour serveur Apache, mod_oai, est en cours de développement pour permettre l’interrogation de toute base de données d’accès libre, à la seule condition que celle-ci soit exposée en format Dublin Core.
Les moissonneurs OAI sont de plus en plus nombreux à parcourir le web, notamment ceux des agrégateurs encyclopédiques institutionnels, dont l’un des plus complets, OAIster (Université du Michigan), répertoriait environ 5 millions de documents électroniques en décembre 2004. La moisson OAI peut aussi servir à constituer de grands répertoires, comme le projet Michael de répertoire européen des fonds culturels numériques. De même, la moisson OAI est aussi à la base de portails participant le plus souvent d’une approche à la fois thématique, géographique et interprofessionnelle, qui associent bibliothèques, musées, archives et associations pour la valorisation de leurs collections : ainsi, PictureAustralia permet de valoriser le patrimoine pictural et photographique australien numérisé.
En France, le projet de Banque numérique du savoir d’Aquitaine (BNSA) incite ses partenaires à fournir des bases de données patrimoniales compatibles avec le protocole OAI pour les moissonner et permettre leur valorisation, via une interface de consultation unique, en cours de développement. On peut aussi évoquer le service Nomina du portail France-Généalogie, qui donnera un accès commun à des millions de données nominatives provenant de sources extrêmement hétérogènes et disséminées, ou encore l’application OAI que développe l’Institut de recherche et de coordination acoustique/musique (IRCAM) pour référencer les documents sonores numérisés de la toile.
La Banque numérique du savoir
d’Aquitaine (BNSA)
La BNSA développe un portail des patrimoines en région Aquitaine
en collaboration avec d’autres structures locales, partenaires et adhérents
de l’association. Ce portail (actuellement visible en version de démonstration)
doit permettre l’articulation de sites souvent préexistants sans les
transformer, et fédérer leurs ressources hétérogènes
en leur offrant un point d’accès commun. Les sites visés contiennent
de la documentation sur l’Aquitaine et ne sont pas nécessairement aquitains,
puisque on y trouve des notices tirées de bases de données produites
par des institutions nationales (comme la BnF pour la part aquitaine de ses
collections numérisées de périodiques, ou la Direction
de l’architecture et du patrimoine du Ministère de la culture et de la
communication avec les bases Mérimée,
Palissy
et Mémoire).
Une page d’accueil a été modélisée pour donner des
accès cartographiques et thématiques aux ressources, quels qu’en
soient les producteurs. Les données sont échangées conformément
au protocole OAI et le format Dublin Core a été choisi comme format
de collecte des données.
Le moissonneur nourrit une base XML qui peut parfaitement être alimentée par d’autres moyens, y compris en ressources " locales ", et par intervention humaine. Ainsi, le futur portail SUDOC de l’Agence bibliographique de l’enseignement supérieur (ABES) comportera une base XML alimentée soit par saisie directe, soit par moisson OAI, soit par des opérations de chargement en série. Un projet similaire est mené pour le catalogue collectif belge UNICAT. Dans le deux cas, la constitution d’une base XML pour les ressources électroniques ne remplace pas l’interrogation de catalogues distants selon la norme Z39-50, mais vient compléter cette architecture pour des recherches fédérées.
L’usage de l’OAI-PMH dans le portail SUDOC
Le portail SUDOC, ensemble d’outils mis au service des bibliothèques
de l’enseignement supérieur et de la recherche membres du réseau
SUDOC, comportera notamment une passerelle d’interrogation multibase et une
base XML. La passerelle d’interrogation permettra une recherche fédérée
portant sur la base XML et les autres bases internes de l’ABES (dont le catalogue
SUDOC), ainsi que sur des bases accessibles par protocoles d’échange
Z39.50 ou autres (par exemple SRW/SRU)
auprès de serveurs distants.
La base XML sera alimentée par saisie directe et par des chargements
en série, et surtout par moissonnage de métadonnées grâce
au protocole OAI : parmi les premiers entrepôts moissonnés,
on trouve des bases de données du CERN, de l’éditeur scientifique
Springer et de la BnF (Gallica).
Le portail SUDOC est entré fin décembre 2004 en phase de vérification
de service régulier et sera ouvert au public en 2005.
La moisson OAI permet donc à une bibliothèque (ou à un projet associant des bibliothèques) de collecter des métadonnées contenues dans des entrepôts OAI sur tout l’espace Internet. Mais pour ce faire, il ne suffit pas de développer un moissonneur : il faut encore établir, en amont, le processus de recherche et de sélection des URL des bases à moissonner (automatique ou manuel, parfois les deux), avec la fréquence de visites et de mise à jour pour chaque base (une fois par jour, une fois tous les quinze jours…) et déterminer, en aval, le stockage, l’indexation, l’exploitation et l’affichage des données (après transformation XSLT).
Pour implémenter un moissonneur OAI et les fonctionnalités complémentaires utiles, on pourra s’aider du guide de l’Open Archives Initiative et recourir à des kits librement diffusés tel que le kit d’implémentation de l’Université de l’Illinois.
De même, on trouve aisément en ligne plusieurs logiciels moissonneurs Open source, comme le moissonneur java d’OCLC, OAIHarvester2, ou dans des bibliothèques de modules (voir par exemple un module Perl complet sur le site du CPAN) ; et autres outils utiles d’indexation, de conversion de données, d’interface client…
Enfin, la plupart des principales plates-formes de gestion de ressources numériques " open source " telles que DSpace, permettant de collecter, d’indexer et de diffuser des contenus numériques, sont compatibles avec le protocole OAI et permettent d’implémenter un moissonneur ou un entrepôt.
Le protocole OAI permet aux bibliothèques de valoriser leurs collections numériques sans nécessiter un lourd investissement. Si l’usage de ce protocole dans le cadre du développement de services fédérateurs de ressources n’est pas toujours l’unique solution envisageable, il n’en est pas moins employé, parfois combiné à d’autres principes techniques, dans des projets français toujours plus nombreux.
Voici une sélection de documents et de liens pour approfondir votre connaissance du protocole OAI et vous aider à développer vos propres services.
Sites ressources
Site de l’Open Archive Initiative :
Site européen de promotion de l’OAI, OA-Forum :
Documents indispensables
Spécifications du protocole OAI, version 2.0 :
Guide d’implémentation :
Apprentissage en ligne
Tutorial OAI-PMH de l’OA-Forum :
Outils de développement et de test
Listes d’applications Open Source :
Canevas OAICat de l’OCLC pour l’implémentation d’un
entrepôt OAI :
Repository Explorater, outil de test pour les entrepôts
de données OAI :
Moissonneur de l’OCLC :
La question des droits dans le cadre de l’OAI
Constitution du groupe OAI-Rights :
Rapport du groupe OAI-Rights sur la transmission des droits dans le cadre de l’OAI-PMH :
Études, articles et conférences
Arms, Carolyn R. " Available and Useful: OAI at the Library of Congress ", Library Hi Tech, Vol. 21, no 2, 2003, p. 129-139 :
Duke, Monica et Hunter, Philip.
Tutorial : OAI and OAI-PMH for Beginners, CERN Workshop on Innovations in Scholary Communications, 12-14 février 2004, 80 diapositives ppt :Foulonneau, Muriel.
Le protocole OAI-PMH : une opportunité pour le patrimoine numérique, janvier 2002, 9 p. :Foulonneau, Muriel.
Collaborer pour de nouveaux services culturels en ligne : le protocole OAI, protocole de collecte des métadonnées de l’Initiative des Archives Ouvertes, janvier 2004, 61 p. :Sévigny, Martin.
Le protocole OAI et SDX2 : Réflexions sur l’OAI, le support OAI dans SDX2, ainsi que l’ooportunité de faire des tests OAI, 19 novembre 2002, 8 p. :Sévigny, Martin et Clavaud, Florence.
" Vers des portails collaboratifs : le protocole OAI-PMH et les archives ", Culture et Recherche, n° 103, octobre-novembre-décembre 2004, p. 20-21 :Young, Jeffrey A., Van de Sompel, Herbert, Hickey, Thomas B.
" Using the OAI-PMH… Differently ", D-Lib Magazine, Vol. 9, no 7/8, juillet-août 2003 :L’intérêt de cette note réside aussi dans
les expériences que vous avez pu faire autour du protocole OAI. Nous
vous invitons à nous les faire partager : vos commentaires pourront
être ajoutés à cette rubrique.
contact : francois.nawrocki@culture.gouv.fr
La source principale de ce glossaire est l'article de Muriel Foulonneau, Collaborer pour de nouveaux services culturels en ligne. Le protocole OAI, protocole de collecte de métadonnées de l’Initiative des Archives Ouvertes, janvier 2004, cité ci-dessus.
agrégateur
architecture distribuée ou répartie
enregistrement (record)
entrepôt OAI (repository)
entrepôt statique
fournisseur de données
fournisseur de service
identifiant (identifier)
interopérabilité
item
lot OAI (set)
moissonneur
moisson sélective
normaliseur
protocole
ressource
schéma de métadonnées
système source