A l’occasion de la Semaine de la généalogie, le service interministériel des Archives de France présente les fructueux apports de l’intelligence artificielle à la recherche archivistique.

Francoise-Banat-Berger-portrait.jpg

Fonctionnalités nouvelles aux possibilités insoupçonnées, changement d’échelle dans le croisement d’informations, reconnaissance automatisée des écritures… Depuis quelques années, les apports de l’intelligence artificielle à la recherche archivistique s’avèrent d’une richesse incomparable et d’une ampleur inédite. « L’intelligence artificielle révèle alors un trésor, elle fait parler les documents ! », résume Françoise Banat-Berger, cheffe du service interministériel des Archives de France.

A l’origine de cette petite révolution, on trouve la volonté du service interministériel des archives de France (SIAF) du ministère de la Culture d’explorer les possibilités offertes par l’intelligence artificielle pour servir la cause des archives. Cette démarche est entrée, début 2022, dans une nouvelle phase, avec le lancement d’un projet ambitieux, le projet SOCFACE, qui vise à étudier à une grande échelle, grâce à l'exploitation globale des recensements de la population de 1836 à 1936, l’évolution de la société française sur un siècle. A l’occasion de la Semaine de la généalogie, dont une table-ronde va se tenir le 26 septembre sur le sujet, Françoise Banat-Berger, cheffe du service interministériel des Archives de France, revient sur les enjeux des usages de l’intelligence artificielle appliqués aux archives.

L’intelligence artificielle rend plus accessibles des sources arides et pourtant d’une richesse extraordinaire, que ce soit du point de vue historique que familial ou personnel

Depuis plusieurs années, l’intelligence artificielle joue un rôle déterminant pour le traitement de nombreux fonds d’archives. En quoi son utilisation a-t-elle révolutionné cet univers ?

Pour les rendre accessibles au plus grand nombre, les services d’archives ont très tôt numérisé et mis en ligne leurs sources les plus fréquemment consultées – et notamment leurs sources généalogiques : état civil, recensement de la population, registres notariés, etc. Aujourd’hui, ce sont des centaines de millions de pages qui sont ainsi disponibles sur Internet, et ce mouvement n’est pas près de s’arrêter. Pour autant, ces millions de pages, ces milliards de lignes, ces centaines de milliards de mots ne sont pas interrogeables en un clic. Elles ne sont accessibles qu’à l’issue d’un parcours de recherche, heureusement balisé par différents outils mis au point par les services d’archives, comme des formulaires de recherche par date ou par lieu.

Dès lors que l’on peut confier à une machine la lecture automatique de tous ces textes écrits, non seulement la recherche est instantanée, mais des informations insoupçonnées sont révélées. Un répertoire de notaire interrogeable en plein-texte peut non seulement permettre de retrouver facilement tel ou tel nom de famille, mais aussi, par exemple, toutes les occurrences d’un nom de rue, d’une profession, d’une activité, que jamais l’humain ne pourra seul transcrire ni même indexer.

Cette révolution est comparable à celle qui permet aujourd’hui, dans des bibliothèques en ligne comme Gallica, d’interroger les milliers de page d’une collection de livres ou de journaux en une fraction de seconde. Dans le monde des archives, le résultat risque d’être même encore plus stupéfiant, puisqu’il s’agit, par nature, de documents uniques, qui, la plupart du temps, n’ont pas été produits pour être lus comme on lit un livre. L’intelligence artificielle révèle alors un trésor ; elle fait parler les documents !

Socface_2.png

L’une des avancées majeures de ces initiatives, vous venez de le souligner, est de rendre les sources plus accessibles pour tout public. A terme, cela va-t-il favoriser une démocratisation plus importante des archives ?

Les services d’archives ont dans leur ADN la vocation de démocratiser les documents qu’ils conservent. Ils sont en effet ouverts à toutes et tous, gratuitement, sans considération du motif de la recherche ou du niveau de diplôme. Pour autant, les archives restent une matière complexe : elles sont le reflet des institutions qui les ont produites, dont l’histoire et le fonctionnement sont souvent difficiles à appréhender, et, surtout, elles n’ont pas été produites pour les usages que l’on en fait aujourd’hui.

Même si des efforts considérables de médiation ont été faits pour faciliter l’identification des documents et pour accompagner les usagers dans leur exploitation, il faut souvent s’armer de beaucoup de patience pour, par exemple, rebondir d’une information à l’autre, ou, tout simplement, pour déchiffrer une écriture ancienne. En faisant tomber la barrière que constitue cette écriture et en permettant à la fois de faire des recherches en plein-texte dans les documents, l’intelligence artificielle rend nécessairement plus accessibles des sources arides et pourtant d’une richesse extraordinaire, que ce soit du point de vue historique que familial ou personnel.

Aujourd’hui, par exemple, grâce au projet Himanis auquel ont participé les Archives nationales, on peut rechercher toutes les occurrences d’un mot dans les registres de la chancellerie royale française de la fin du Moyen Âge, sans pour autant n’avoir jamais été formé à la paléographie.

listenominativescharentemaritime.jpg

Plusieurs chantiers importants ont été lancés, dont le projet SOCFACE, soutenu par le service interministériel des Archives de France, qui constitue une première mondiale pour le traitement des recensements de la population française aux XIXe et XXe siècles. En quoi ce projet est-il innovant ?

Jusqu’à présent, les projets de reconnaissance automatique de caractères manuscrits ne concernaient qu’un nombre relativement réduit de documents, souvent conservés dans une seule institution et relativement homogènes du point de vue de la présentation ou de l’écriture : j’ai parlé des registres de la chancellerie royale, mais c’est également le cas des répertoires de notaires du XIXe siècle ou des inventaires manuscrits conservés aux Archives nationales, ou bien encore des registres des États de Bourgogne des Archives départementales de la Côte-d’Or.

Le projet SOCFACE est innovant par son ampleur géographique et chronologique, puisqu’il vise l’ensemble des recensements de la population française entre 1836 et 1936, ce qui correspond à 15 millions d’images et probablement à 500 millions d’entrées nominatives. Le projet est aussi ambitieux parce que l’écriture a nécessairement changé entre le début du XIXe et le début du XXe siècle, de même que la présentation des listes nominatives de recensement et la précision des informations qu’elles fournissent. Les États-Unis ont certes, récemment, appliqué la reconnaissance automatique de caractère à une typologie similaire, le census, mais il ne s’agissait que d’un recensement, celui de 1950, et, qui plus est, très standardisé.

Avec SOCFACE, l’ambition est beaucoup plus grande. Elle l’est d’autant plus que le projet a vocation non seulement à faire transcrire par l’ordinateur le texte des recensements, mais aussi à lier entre elles les informations qu’ils donnent : on pourra ainsi étudier l’évolution sur un siècle des structures familiales, l’apparition ou la disparition de professions, leur répartition sur le territoire de la France. Il sera dès lors possible d’éclairer, par exemple, les transformations du marché du travail, les causes et les conséquences des migrations ou encore l’évolution des inégalités. Non seulement les généalogistes auront à portée de mains des informations nominatives extrêmement riches, mais aussi les historiens, les sociologues, les démographes, les économistes…

Semaine de la généalogie : une table-ronde sur l’intelligence artificielle au service des sources

A l’occasion de la Semaine de la généalogie, qui se tient du 24 septembre au 1er octobre, à Mandelieu- La Napoule, le service interministériel des Archives de France du ministère de la Culture présente le 26 septembre de 14h30 à 16h30 une table-ronde intitulée « Les archives en toutes lettres : l’intelligence artificielle au service des sources ». L’objectif ? Présenter « lesinitiatives qui promettent de révolutionner l’accès aux sources et leur exploitation par le public, qu’il soit généalogiste, historien, sociologue ou démographe ».

Avec Françoise Banat-Berger, cheffe du service interministériel des Archives de France/ministère de la Culture ; Jean-Charles Bédague, sous-directeur du pilotage, de la communication et de la valorisation des archives au service interministériel des Archives de France/ministère de la Culture ; Édouard Bouyé, directeur des Archives départementales de la Côte-d’Or ; Marie-Françoise Limon-Bonnet, conservatrice générale du patrimoine aux Archives nationales ; Christopher Kermorvant, président-fondateur de l’entreprise Teklia.