• Contenu
  • Menu
  • Recherche
  • Pied de page

Ministère
de la culture

Menu

  • Retour

    Actualités

    Voir tout
    • À la Une
    • Dossiers
  • Retour

    Nous connaître

    Voir tout
    • Rachida Dati, ministre de la Culture
    • Découvrir le ministère

      Voir tout
      • Organisation du ministère
      • Histoire du ministère
      • Événements nationaux
      • Protections, labels et appellations
      • Le budget du ministère de la Culture
    • Emploi et formation

      Voir tout
      • Emploi - Apprentissage
      • Concours et examens professionnels
      • Le répertoire des métiers
      • Les agents témoignent
      • Service civique
      • Formations professionnelles
  • Aides & démarches
  • Retour

    Documentation

    Voir tout
    • Rechercher une publication
    • Statistiques ministérielles de la Culture
    • Bases de données
    • Sites internet et multimédias
    • Répertoire des ressources documentaires
  • Événements nationaux
  • Régions

    • Drac Auvergne - Rhône-Alpes
    • Drac Centre-Val de Loire
    • Dac Guadeloupe
    • DRAC Île-de-France
    • Drac Normandie
    • Drac Occitanie
    • Mission aux affaires culturelles de Polynésie Française
    • Drac Bourgogne-Franche-Comté
    • Drac Corse
    • DCJS Guyane
    • DAC Martinique
    • DRAC Nouvelle-Aquitaine
    • Dac de La Réunion
    • Drac Provence-Alpes-Côte d'Azur
    • Drac Bretagne
    • Drac Grand Est
    • Drac Hauts-de-France
    • DAC Mayotte
    • Mission aux affaires culturelles de Nouvelle-Calédonie
    • Drac Pays de la Loire
    • Mission aux Affaires Culturelles de Saint-Pierre-et-Miquelon
  • Secteurs & métiers

    • Archéologie
    • Architecture
    • Archives
    • Arts plastiques
    • Audiovisuel
    • Cinéma
    • Danse
    • Design
    • Industries culturelles et créatives
    • Livre et lecture
    • Métiers d'art
    • Mode
    • Monuments & Sites
    • Musées
    • Musique
    • Photographie
    • Presse écrite
    • Théâtre, spectacles

    Politiques publiques

    • Circulation des biens culturels
    • Conservation-restauration
    • Culture et territoires
    • Développement culturel
    • Education artistique et culturelle
    • Éducation aux médias et à l'information
    • Egalité et diversité
    • Enseignement supérieur et Recherche
    • Ethnologie de la France
    • Europe et international
    • Innovation numérique
    • Inventaire général du patrimoine
    • Langue française et langues de France
    • Mécénat
    • Patrimoine culturel immatériel
    • Sciences du patrimoine
    • Sécurité - Sûreté
    • Transition écologique
  1. Accueil Ministère
  2. Actualités
  3. Ces sources archivistiques exploitées grâce à l’intelligence artificielle

Ces sources archivistiques exploitées grâce à l’intelligence artificielle

La reconnaissance automatique de caractères manuscrits propose désormais des solutions sur-mesure pour traiter un certain nombre de sources archivistiques. Le point sur les projets en cours.

Publié le 5 oct. 2022

  • Actualité
Archives départementales de Haute-Garonne © Adrien Nowak / Hans Lucas via AFP

Les technologies de pointe, en l’occurrence l’intelligence artificielle, sont en train de révolutionner la recherche archivistique et l’exploitation des sources. Dans un entretien qu’elle nous a accordé en septembre, Françoise Banat-Berger, cheffe du service interministériel des Archives de France au ministère de la Culture, est revenue sur l’importance de ces avancées, notamment en présentant un projet emblématique – le projet SOCFACE –, qui vise à étudier, grâce à l'exploitation des recensements de la population de 1836 à 1936, l’évolution de la société française sur un siècle.

Ce projet n’est pas le seul à faire appel aux techniques de l’intelligence artificielle, loin s’en faut. Les Archives nationales ont été pionnières avec plusieurs chantiers passionnants – HIMANIS, SIMARA et LECTOREP – qui montrent l’étendue et la diversité d’application de ces technologies à des corpus précis : manuscrits médiévaux, inventaires d’Ancien Régime, recensements de la population…. « C’est à chaque fois une nouvelle aventure », a assuré Marie-Françoise Limon-Bonnet, conservatrice générale du patrimoine aux Archives nationales, à l’occasion d’une table-ronde, « Les archives en toutes lettres : l’intelligence artificielle au service des sources », qui s’est tenue le 26 septembre à Mandelieu-La Napoule, à l’occasion de la Semaine de la généalogie. Compte-rendu.

Manuscrits médiévaux, inventaires d’Ancien Régime, recensements de la population…. C’est à chaque fois une nouvelle aventure

Autour de Françoise Banat-Berger, cheffe du service interministériel des Archives de France, les différents intervenants de la table-ronde © Fédération française de généalogie

De précieux manuscrits médiévaux

HIMANIS, pour Historical manuscript indexing for user-controlled search, lancé en 2015, est un projet de recherche européen, associant, sous le pilotage en France de l’Institut de recherche et d’histoire des textes (IRHT), la société innovante A2iA, ainsi que des ingénieurs et universitaires néerlandais et espagnols. Il vise à l’indexation du texte des registres de la chancellerie royale française des années 1302-1483 conservés aux Archives nationales.

À ce jour, grâce à la collaboration entre institutions patrimoniales, chercheurs en sciences humaines et sociales, et chercheurs en informatique et intelligence artificielle, « les partenaires du projet sont parvenus à indexer le plein-texte de plus de 75 000 pages de manuscrits médiévaux », se félicite Marie-Françoise Limon-Bonnet. « L’Institut de recherche et d’histoire des textes, qui étudie des manuscrits anciens en français et en latin, s’est associé pour l’occasion à un conservateur des archives. L’objectif d’HIMANIS est de faire ressortir des contenus à grande échelle. Les générations d’archivistes et d’historiens qui se sont succédé par le passé n’avaient pu étudier qu’une partie seulement des manuscrits ». 

Archives départementales de Haute-Garonne © Adrien Nowak / Hans Lucas via AFP

SIMARA : faciliter le travail des archivistes

Le projet SIMARA, « Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique », vise à développer une plateforme de conversion des inventaires et index manuscrits de la fin du XVIIIe siècle au XXe siècle des archives du Moyen Age et de l’Ancien Régime. « Nous sommes du côté des archivistes, SIMARA est un projet métier », explique Christopher Kermorvant, président-fondateur de l’entreprise Teklia, maître d’œuvre du projet.  « Dans la mesure où le travail de nos prédécesseurs était manuscrit, précise-t-il, l’enjeu est de faire en sorte que tous les inventaires soient en ligne ».

Concrètement, SIMARA réalise simultanément deux opérations : la transcription automatique grâce à la reconnaissance d’écritures manuscrites et le placement du texte dans un formulaire dont les champs correspondent à des éléments de balisage des description d’archives. Et permet de gagner du temps. Par ailleurs, la plateforme pourra être utilisée à l’avenir pour d’autres projets de transcription d’inventaires d’archives de la même période.

Chargement du Tweet <p>&nbsp;</p> : Publication <p>&nbsp;</p> sur X

Les patronymes, un réservoir inépuisable de richesses

Le projet LECTAUREP, pour lecture automatique de répertoires, lancé en 2018, est dédié aux registres des actes notariés, l’une des sources historiques les plus consultées aux Archives nationales. L’intelligence artificielle appliquée au traitement de ces manuscrits passe par le développement d’une plateforme qui corrige les transcriptions et les annotations qui en résultent et fournit des métadonnées détaillées sur les documents.

« Avec les patronymes, nous disposons d’un réservoir inépuisable de richesses, confie Marie-Françoise Limon-Bonnet. Ce projet, pour passer à l’échelon industriel, aura besoin de bénévoles ». Par ailleurs, poursuit-elle, « si le modèle de segmentation du texte utilisé est bon, il arrive qu’on ne sache pas où s’arrête tel ou tel groupe de texte cohérent, notamment pour les répertoires du XIXe siècle où l’écriture est densifiée à l’extrême ». Problème qui ne se pose pas pour les manuscrits d’Ancien Régime pour lesquels « le modèle fonctionne remarquablement bien ».  

Dossiers d’archives de naturalisations © Patrick Kovaric / AFP

 

Quand la France des Lumières se dévoile

« À travers les questions de voirie, d’aménagement de haras, de pépinières, c’est toute la France des Lumières qui se développe de façon raisonnée et qui se donne à voir » : c’est ainsi qu’Édouard Bouyé, directeur des Archives départementales de la Côte-d’Or, décrit le contenu des archives des États de Bourgogne au cœur du projet « Lettres en Lumières ».

« Dans le cadre de la technologie choisie pour ce projet, Mask RNCC, nous avons réussi à mobilier 25 volontaires qui ont transcrit 1500 pages », se réjouit-il. Des transcripteurs qui à terme deviendront correcteurs. « L’objectif est d’avoir un outil qui puisse apprendre en permanence et offrir aux généalogistes la possibilité de transcrire des pages et des pages d’écriture. Il est aussi de moissonner ces pages et d’y repérer des informations potentiellement intéressantes ».

SOCFACE, premier projet de grande ampleur pour analyser les évolutions démographiques

Projet de recherche utilisant l’intelligence artificielle, SOCFACE associe le ministère de la Culture (service interministériel des Archives de France), les services publics d’archives et des acteurs de la recherche et de l’innovation (Institut national d’études démographiques, société Teklia, Paris Sciences et Lettres) pour permettre l’exploitation par le public des recensements de la population française de 1836 à 1936.

Financé par l’Agence nationale de la recherche (ANR), ce projet culturel de reconnaissance automatique d’écritures manuscrites, le premier d’ampleur nationale, traitera 15 millions d’images de listes nominatives du recensement, produira une base de données de tous les individus ayant vécu en France entre 1836 et 1936 et l’utilisera pour analyser les changements sociaux dans la longue durée. « L’objectif est de collecter le plus de données possible afin qu’une histoire économique et sociale à la fois individuelle et nationale se dessine », confirme Christopher Kermorvant, président-fondateur de Teklia, en précisant que « dans la recherche en sciences sociales, on utilise désormais de plus en plus de données agrégées ». A ce jour, poursuit-il, ce sont « trois millions d’images [qui] ont été collectées dans les Archives départementales ».   

L’autre impact majeur de SOCFACE sera l’accès aux listes nominatives pour le grand public, et notamment les généalogistes : les informations produites seront diffusées et librement réutilisables sur France Archives et sur les sites des Archives départementales partenaires, permettant ainsi à quiconque de parcourir librement des centaines de millions de données.

L’objectif de SOCFACE est une première utilisation à grande échelle sur les archives de technologies de transcription automatique, sur une source très prisée tant pour les recherches généalogiques que pour des études historiques et démographiques.

 

 

 

Partager la page

  • Partager sur Facebook
  • Partager sur X
  • Partager sur Linkedin
  • Partager sur Instagram

A lire aussi

Archives : l’intelligence artificielle fait…

Publié le 21.09.2022

Abonnez-vous à notre lettre d’information

Vous décidez des envois que vous voulez recevoir… Ou arrêter. Votre adresse email ne sera bien sûr jamais partagée ou revendue à des tiers.

S'abonner

Suivez-nous
sur les réseaux sociaux

  • x
  • linkedin
  • facebook
  • instagram
  • youtube

  • À la Une
  • Dossiers

  • Rachida Dati, ministre de la Culture
  • Découvrir le ministère
  • Emploi et formation

  • Rechercher une publication
  • Statistiques ministérielles de la Culture
  • Bases de données
  • Sites internet et multimédias
  • Répertoire des ressources documentaires

Ministère
de la culture

  • legifrance.gouv.fr
  • info.gouv.fr
  • service-public.fr
  • data.gouv.fr
  • Contact
  • Mentions légales
  • Accessibilité : partiellement conforme
  • Politique générale de protection des données
  • Politique d’utilisation des témoins de connexion (cookies)
  • Plan du site

Sauf mention contraire, tous les contenus de ce site sont sous licence etalab-2.0