La reconnaissance automatique de caractères manuscrits propose désormais des solutions sur-mesure pour traiter un certain nombre de sources archivistiques. Le point sur les projets en cours.

Les technologies de pointe, en l’occurrence l’intelligence artificielle, sont en train de révolutionner la recherche archivistique et l’exploitation des sources. Dans un entretien qu’elle nous a accordé en septembre, Françoise Banat-Berger, cheffe du service interministériel des Archives de France au ministère de la Culture, est revenue sur l’importance de ces avancées, notamment en présentant un projet emblématique – le projet SOCFACE –, qui vise à étudier, grâce à l'exploitation des recensements de la population de 1836 à 1936, l’évolution de la société française sur un siècle.

Ce projet n’est pas le seul à faire appel aux techniques de l’intelligence artificielle, loin s’en faut. Les Archives nationales ont été pionnières avec plusieurs chantiers passionnants – HIMANIS, SIMARA et LECTOREP – qui montrent l’étendue et la diversité d’application de ces technologies à des corpus précis : manuscrits médiévaux, inventaires d’Ancien Régime, recensements de la population…. « C’est à chaque fois une nouvelle aventure », a assuré Marie-Françoise Limon-Bonnet, conservatrice générale du patrimoine aux Archives nationales, à l’occasion d’une table-ronde, « Les archives en toutes lettres : l’intelligence artificielle au service des sources », qui s’est tenue le 26 septembre à Mandelieu-La Napoule, à l’occasion de la Semaine de la généalogie. Compte-rendu.

Manuscrits médiévaux, inventaires d’Ancien Régime, recensements de la population…. C’est à chaque fois une nouvelle aventure

LaNapoule-FFG (3).JPEG

De précieux manuscrits médiévaux

HIMANIS, pour Historical manuscript indexing for user-controlled search, lancé en 2015, est un projet de recherche européen, associant, sous le pilotage en France de l’Institut de recherche et d’histoire des textes (IRHT), la société innovante A2iA, ainsi que des ingénieurs et universitaires néerlandais et espagnols. Il vise à l’indexation du texte des registres de la chancellerie royale française des années 1302-1483 conservés aux Archives nationales.

À ce jour, grâce à la collaboration entre institutions patrimoniales, chercheurs en sciences humaines et sociales, et chercheurs en informatique et intelligence artificielle, « les partenaires du projet sont parvenus à indexer le plein-texte de plus de 75 000 pages de manuscrits médiévaux », se félicite Marie-Françoise Limon-Bonnet. « L’Institut de recherche et d’histoire des textes, qui étudie des manuscrits anciens en français et en latin, s’est associé pour l’occasion à un conservateur des archives. L’objectif d’HIMANIS est de faire ressortir des contenus à grande échelle. Les générations d’archivistes et d’historiens qui se sont succédé par le passé n’avaient pu étudier qu’une partie seulement des manuscrits ». 

ARCHIVES-DEPARTEMENTALES-HAUTEèGARONNE-ADRIEN-NOWAK-HANS-LUCAS-VIA-AFP3.jpg

SIMARA : faciliter le travail des archivistes

Le projet SIMARA, « Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique », vise à développer une plateforme de conversion des inventaires et index manuscrits de la fin du XVIIIe siècle au XXe siècle des archives du Moyen Age et de l’Ancien Régime. « Nous sommes du côté des archivistes, SIMARA est un projet métier », explique Christopher Kermorvant, président-fondateur de l’entreprise Teklia, maître d’œuvre du projet.  « Dans la mesure où le travail de nos prédécesseurs était manuscrit, précise-t-il, l’enjeu est de faire en sorte que tous les inventaires soient en ligne ».

Concrètement, SIMARA réalise simultanément deux opérations : la transcription automatique grâce à la reconnaissance d’écritures manuscrites et le placement du texte dans un formulaire dont les champs correspondent à des éléments de balisage des description d’archives. Et permet de gagner du temps. Par ailleurs, la plateforme pourra être utilisée à l’avenir pour d’autres projets de transcription d’inventaires d’archives de la même période.

Les patronymes, un réservoir inépuisable de richesses

Le projet LECTAUREP, pour lecture automatique de répertoires, lancé en 2018, est dédié aux registres des actes notariés, l’une des sources historiques les plus consultées aux Archives nationales. L’intelligence artificielle appliquée au traitement de ces manuscrits passe par le développement d’une plateforme qui corrige les transcriptions et les annotations qui en résultent et fournit des métadonnées détaillées sur les documents.

« Avec les patronymes, nous disposons d’un réservoir inépuisable de richesses, confie Marie-Françoise Limon-Bonnet. Ce projet, pour passer à l’échelon industriel, aura besoin de bénévoles ». Par ailleurs, poursuit-elle, « si le modèle de segmentation du texte utilisé est bon, il arrive qu’on ne sache pas où s’arrête tel ou tel groupe de texte cohérent, notamment pour les répertoires du XIXe siècle où l’écriture est densifiée à l’extrême ». Problème qui ne se pose pas pour les manuscrits d’Ancien Régime pour lesquels « le modèle fonctionne remarquablement bien ».  

ARCHIVES-NATURALISATIONS-PATRICK-KOVARIC-AFP.jpg

 

Quand la France des Lumières se dévoile

« À travers les questions de voirie, d’aménagement de haras, de pépinières, c’est toute la France des Lumières qui se développe de façon raisonnée et qui se donne à voir » : c’est ainsi qu’Édouard Bouyé, directeur des Archives départementales de la Côte-d’Or, décrit le contenu des archives des États de Bourgogne au cœur du projet « Lettres en Lumières ».

« Dans le cadre de la technologie choisie pour ce projet, Mask RNCC, nous avons réussi à mobilier 25 volontaires qui ont transcrit 1500 pages », se réjouit-il. Des transcripteurs qui à terme deviendront correcteurs. « L’objectif est d’avoir un outil qui puisse apprendre en permanence et offrir aux généalogistes la possibilité de transcrire des pages et des pages d’écriture. Il est aussi de moissonner ces pages et d’y repérer des informations potentiellement intéressantes ».

SOCFACE, premier projet de grande ampleur pour analyser les évolutions démographiques

Projet de recherche utilisant l’intelligence artificielle, SOCFACE associe le ministère de la Culture (service interministériel des Archives de France), les services publics d’archives et des acteurs de la recherche et de l’innovation (Institut national d’études démographiques, société Teklia, Paris Sciences et Lettres) pour permettre l’exploitation par le public des recensements de la population française de 1836 à 1936.

Financé par l’Agence nationale de la recherche (ANR), ce projet culturel de reconnaissance automatique d’écritures manuscrites, le premier d’ampleur nationale, traitera 15 millions d’images de listes nominatives du recensement, produira une base de données de tous les individus ayant vécu en France entre 1836 et 1936 et l’utilisera pour analyser les changements sociaux dans la longue durée. « L’objectif est de collecter le plus de données possible afin qu’une histoire économique et sociale à la fois individuelle et nationale se dessine », confirme Christopher Kermorvant, président-fondateur de Teklia, en précisant que « dans la recherche en sciences sociales, on utilise désormais de plus en plus de données agrégées ». A ce jour, poursuit-il, ce sont « trois millions d’images [qui] ont été collectées dans les Archives départementales ».   

L’autre impact majeur de SOCFACE sera l’accès aux listes nominatives pour le grand public, et notamment les généalogistes : les informations produites seront diffusées et librement réutilisables sur France Archives et sur les sites des Archives départementales partenaires, permettant ainsi à quiconque de parcourir librement des centaines de millions de données.

L’objectif de SOCFACE est une première utilisation à grande échelle sur les archives de technologies de transcription automatique, sur une source très prisée tant pour les recherches généalogiques que pour des études historiques et démographiques.