Expérimenter le tagging sémantique

Une expérimentation sur des données du site Histoiredesarts.culture.fr

Le site histoiredesarts.culture.fr recense 5000 ressources éducatives en ligne produites par 400 institutions culturelles. Cet annuaire, mis en œuvre en septembre 2010, a pour vocation d’aider la communauté éducative (enseignants, médiateurs culturels…) à trouver des documents fiables dans le domaine de l’histoire des arts. Il s’inscrit dans le dispositif développé par le ministère de la Culture et de la Communication (MCC) pour soutenir le programme d’enseignement de l’histoire des arts de l’Éducation Nationale.

Un workflow d’édition des notices du site (projet « HDABO ») permet aux contributeurs institutionnels, de créer et mettre à jour leurs notices via une interface Web dédiée. Ce chantier a été l’occasion de créer un module permettant une indexation des ressources, sensiblement plus élaborée que celle qui était initialement en place (recherche en texte intégral). Des tags « sémantiques », liés aux entrées de Wikipédia, remplacent les simples chaînes de caractères utilisés en guise de tags. Parallèlement, une preuve de concept permet d’illustrer les fonctionnalités heuristiques innovantes qu’offre un corpus de tags sémantiques (projet « HDA-Lab »). Ces projets (module de tagging sémantique et preuve de concept) procèdent d’une collaboration entre le Département des Programmes Numériques (DPN) du MCC et l’Institut de recherche et d’innovation (IRI).

L’intérêt et les limites des tags Web 2.0

Le tagging est typique du Web 2.0, les exemples de sites utilisant les tags étant souvent cités pour illustrer la première vague du Web 2.0. Cela n’a rien d’étonnant si l’on se souvient que la contribution est au cœur du Web 2.0, et le véritable moteur du tagging. La plupart des plates-formes actuelles proposent à leurs contributeurs un champ tags, sur lequel reposent une partie importante des fonctionnalités de navigation et de recherche. Les sites Delicious (partages de signets), Flickr (partage de photos), Youtube ou Dailymotion, sans oublier bien sûr les outils d’édition de blogs (WordPress…)… ont favorisé le développement de la pratique du tagging parmi un large public d’internautes.

Les tags sont la plupart du temps de simples chaînes de caractères (mots-clés, smileys, etc.), utilisés comme des étiquettes pour décrire une ressource. Ils sont particulièrement importants lorsque la ressource ainsi décrite est une image ou un contenu audio ou vidéo dont on ne saurait aisément extraire des descripteurs. Dans ces cas-là, les moteurs de recherche ne peuvent indexer les documents faute de contenu textuel à analyser, d’où l’importance de la contribution des internautes.

La popularité de cette méthode d’indexation doit beaucoup à son apparente simplicité. Mais elle est en contrepartie très limitée techniquement (entre autres) du fait de l’homonymie et de la polysémie naturelles des mots. Le tag « Vienne » désigne-t-il la capitale de l’Autriche ou une commune de l’Isère ? « Verre » désigne-t-il un récipient ou un matériau ? Henry VIII, désigne-t-il un roi d’Angleterre ou un opéra de Camille Saint-Saëns ? Si un internaute cherche « cyclomoteur », ne risque-t-il pas de rater des documents importants tagués avec « vélomoteur » ?

Certes, les tags augmentent notre capacité à retrouver des documents sur le Web tout en favorisant la « sérendipité », autrement dit, l’imprévu d’une découverte qui s’avère féconde. Leur présence est donc une indéniable amélioration fonctionnelle des sites qui les exploitent. Pour autant, selon les contextes, les limites de ce modèle d’indexation sont susceptibles de requérir des améliorations techniques.

Les tags « sémantiques »

L’utilisation de référentiels terminologiques tels que des thésaurus, par exemple, n’est pas envisageable dans le contexte actuel pour au moins deux raisons. Premièrement, le Web 2.0 est fondé sur une ouverture très large aux contributeurs de sites. Or, la complexité d’utilisation d’un thésaurus est rédhibitoire pour un tagueur lambda, non-spécialiste des techniques documentaires traditionnelles. Deuxièmement, il est difficile de trouver un référentiel suffisamment riche en ligne dont le contenu est légalement réutilisable. C’est de ce constat qu’est née l’idée d’utiliser Wikipedia comme référentiel. Avec plus d’un million d’articles en langue française, sous licence creative commons, cette encyclopédie en ligne répond aux exigences minimales des indexeurs d’une plateforme tel qu’Histoiredesarts. De plus, elle est disponible sous une forme structurée selon les standards du Web sémantique, via le projet DBpedia.org. Principale application du web sémantique, DBpedia s’apparente à un référentiel de fait. Elle s’appuie sur le projet qui, à ce jour, a su mobiliser de la manière la plus convaincante la contribution des internautes : Wikipédia. En transformant la plus grande encyclopédie que l’humanité ait connu à ce jour en une base de connaissance, DBpedia résout le problème traditionnel des thésaurus en proposant un référentiel ouvert à toutes les thématiques, qui se met à jour « tout seul », grâce à l’activité incessante déployée par les Wikipédiens.

Les tags « sémantiques » utilisés pour HDA-Lab sont constitués d’un label et d’un ensemble de métadonnées extraites de Wikipedia et DBpedia.

Exemple :

Tag non sémantique:
Restauration

Tags sémantiques :
Label Wikipedia : Restauration (art)
URL Wikipedia : http://fr.wikipedia.org/wiki/Restauration_%28art%29
URI DBpedia : http://dbpedia.org/page/Conservation-restoration

Label Wikipedia : Restauration (histoire de France)
URL Wikipedia : http://fr.wikipedia.org/wiki/Restauration_%28histoire_de_France%29
URI DBpedia : http://dbpedia.org/page/Bourbon_Restoration

Dans cet exemple, le tag « Restauration » est désambiguïsé en référence à deux articles distincts de Wikipédia. Le mot a été remplacé, selon le contexte des notices d’Histoiredesarts, soit par « Restauration (art) », soit par « Restauration (histoire de France) ». Le travail de ré-indexation de l’ensemble du corpus Histoiredesarts a nécessité le traitement de 70 000 tags environ. Pour ce faire, l’équipe éditoriale du projet a utilisé un module de ré-indexation ad hoc : « HDA-BO » (pour back-office). Cet outil offre une fonctionnalité de liaison avec Wikipédia et DBpedia. La liste de complétion des entrées de l’encyclopédie est en effet disponible pour chaque tag. La ré-indexation consiste donc simplement à substituer au tag son équivalent parmi les entrées de Wikipédia. Le module importe alors le label et l’URL de Wikipédia ainsi que l’URI DBpedia. Les nouvelles ressources ajoutées au corpus seront directement taguées à l’aide de ces nouvelles fonctionnalités.

L’intérêt pour l’utilisateur final

La sémantisation des tags offre de nombreux avantages, tant sur le plan éditorial que fonctionnel.

  • Le choix du label de Wikipédia permet de désambiguïser les tags d’une manière simple. L’utilisateur n’est plus dans l’incertitude : il connait d’avance la signification du tag appliqué au corpus et les résultats de sa recherche ne sont donc plus pollués par des documents hors sujets.
  • L’URL de Wikipédia fournit, de facto, un identifiant pour chaque tag. Ainsi, tous les corpus tagués avec la même méthode seront sémantiquement compatibles. On peut donc imaginer des outils de recherche transverses portant sur de nombreuses ressources réparties dans différents projets ou différents sites (ex. : Faviki).
  • Des métadonnées supplémentaires sont extraites de Wikipédia afin d’enrichir les fonctionnalités associées à la consultation du corpus : le portrait d’une personnalité, la géolocalisation d’un monument, la définition d’un terme, son équivalent dans une autre langue… Les exemples ne manquent pas.
  • Des relations logiques sous-jacentes aux contenus de Wikipédia (par exemple les relations d’inclusion entre villes, départements et régions de France) sont réutilisables via le graphe sémantique de DBpedia. Cela permet d’enrichir les fonctionnalités de recherche, par exemple retrouver toutes les villes appartenant à une région.

Pareil enrichissement fonctionnel ne remet bien évidemment pas en cause les aspects les plus positifs du tagging Web 2.0. En revanche, il est conçu pour en augmenter sensiblement la réutilisabilité.

La preuve de concept HDA-Lab s’inscrit résolument dans une démarche R&D orientée utilisateur-final. Les internautes peuvent comparer en direct les fonctionnalités classiques de l’interface d’origine avec les fonctionnalités enrichies de la preuve de concept.

L’objectif est de démontrer la faisabilité du tagging sémantique en contexte, pour répondre à des besoins précis, tout en sensibilisant plus largement l’utilisateur final aux enjeux du Web de données.

HDA-Lab se présente comme un catalogue évolutif de fonctionnalités regroupées sous différentes pages, chacune présentant un type de recherche/navigation/partage. Les fonctionnalités mettent l’accent sur la recherche par facettes : le temps (ligne du temps), l’espace (carte du monde), les disciplines artistiques (liste des disciplines), les mots-clés thématiques (nuage de tag)mais aussi recherche par liste de complétion augmentée, accès multilingue, carte heuristique, etc.

Pour en savoir plus : http://hdalab.iri-research.org

Bertrand Sajus  (MCC/DPN) et Alexandre Monnin(IRI)