La reconnaissance automatique de caractères manuscrits propose désormais des solutions sur-mesure pour traiter un certain nombre de sources archivistiques. Le point sur les projets en cours.

先进的技术(此处为人工智能)正在彻底改变档案研究和来源利用。 在A中 维护 9月,法国文化部法国档案部部门间司司长Françoise è ne Banat-Berger谈到这些进展的重要性,特别是介绍了一个标志性项目---- SOCFACE项目, 其目的是利用1836-1936年1936年人口普查,研究法国社会在一个世纪中的演变。

这个项目并不是唯一一个使用人工智能技术的项目,远非如此。 国家档案馆是几个令人兴奋的项目的先驱,这些项目包括HIMANIS,SIMARA和Lectaurep,它们展示了这些技术在特定领域的应用范围和多样性:中世纪手稿,Ancien R é gime清单,人口普查…。 « 这总是一种新的冒险 国家档案馆遗产总馆长Marie-G ó Françoise Limon-Bonnet在9月26日在Mandelieu-La Napoule举行的一次圆桌会议上说,"档案与文字:为来源提供服务的情报手段" 家谱周 。 汇报。

中世纪手稿,Ancien R é gime清单,人口普查等,每一次都是一次新的冒险

珍贵的中世纪手稿

HIMANIS,用于 用于用户控制的搜索的历史手稿索引 这是一个于2015年启动的欧洲研究项目,由创新型公司A2iA以及荷兰和西班牙的工程师和学者在研究与材料研究所(IRHT)的指导下参与。 其目的是为国家档案馆保存的130-1483年法国皇家档案馆登记册的文本编制索引。

到目前为止,由于遗产机构,人文和社会科学领域的研究人员以及计算机科学和人工智能领域的研究人员之间的协作," 项目合作伙伴设法为7.5万多页中世纪手稿的全文编制索引 ”祝贺Marie-G ó Françoise Limon-Bonnet。 " 研究法语和拉丁语古代手稿的研究和材料历史研究所与档案馆馆长合作举办了这一活动。 HIMANIS的目标是大规模推出内容。 历代档案主义者和历史学家只能研究部分手稿 »。  

ARCHIVES-DEPARTEMENTALES-HAUTEèGARONNE-ADRIEN-NOWAK-HANS-LUCAS-VIA-AFP3.jpg

SIMARA:促进档案管理员的工作

SIMARA项目«è s saisie d'inventaires Manuscrits Assiste par 헬 달 Automatique»è re旨在开发一个平台,用于从18世纪末到20世纪从中世纪和Ancien R é gime档案中转换手稿目录和索引。 « 我们站在档案管理员的一边,SIARA是一个业务项目 ”项目的主要承包商Teklia的创始人兼总裁Christopher Kermorvant解释说。 " 就我们前任的工作是手写的而言, 他是否具体说明, 面临的挑战是确保所有库存都在线 »。

具体地说,SIARA同时执行两项操作:通过识别手写条目自动转录,以及将文本放在一个字段对应于档案说明标记要素的表单中。 并节省时间。 此外,该平台今后还可用于同一时期的其他档案库存记录项目。

ARCHIVES-NATURALISATIONS-PATRICK-KOVARIC-AFP.jpg

姓氏,一个取之不尽的财富宝库

2018年启动的用于自动阅读目录的LECTAUREP项目专门用于公证书的登记,这是国家档案馆查阅最多的历史资料来源之一。 用于处理这些手稿的人工智能需要开发一个平台,以纠正由此产生的转录和注释,并提供有关文件的详细元数据。

« 有了姓氏,我们就有了无穷无尽的财富 ,Marie-G ó Françoise Limon-Bonnet的秘密。 这一项目要进入工业一级,将需要志愿人员 此外,她继续说," 如果使用的文本的断句模型良好,则会发生这样的情况,即我们不知道相关文本组的结束位置,特别是对于19世纪的目录,在这些目录中,写入内容被否认为 这是一个不会出现的问题,因为安切尼·雷吉默的手稿" 该模型运行良好 »。   

ARCHIVES-ALAIN-JOCARD-AFP.jpg

当启蒙的法国被揭露时

« 通过道路,螺柱农场,苗圃等问题,整个启蒙运动的法国都在理性的发展,让自己看到 »这是Côte ç o-d'Or省档案馆馆长 Édouard Bouy é 在«Letters in Lights»项目的核心部分描述勃艮第各州档案的内容。

« 作为为该项目选择的技术——Mask RNCC的一部分,我们成功地提供了25名志愿者,他们转录了1500页 最终成为校对员的转录员。 " 目标是拥有一个能够持续学习的工具,并为家谱学家提供转录页面和书写页面的机会。 还需要收集这些页面并查找可能感兴趣的信息 »。

SOCFACE,第一个分析人口趋势的大型项目

作为一个使用人工智能的研究项目,SOCFACE将文化部(法国档案馆部门间服务),公共档案馆以及研究和创新利益攸关方(国家人口研究所,Teklia学会,巴黎科学与Lettres)聚集在一起 使公众能够利用1836年至1936年的法国人口普查。

由国家研究局资助的这一自动承认手写著作的文化项目是全国范围的第一个项目,将处理1500万张普查提名名单的图像, 建立一个1836年至1936年期间居住在法国的所有个人的数据库,并利用它来分析长期的社会变化。 « 其目的是收集尽可能多的数据,以便形成个人和国家的经济和社会历史 Teklia创始人兼总裁Christopher Kermorvant证实了这一点 在社会科学研究中,使用的综合数据越来越多 他继续说,到今天,这是" 在部门档案馆中收集了300万张图像 »。   

SOCFACE的另一个主要影响将是公众,特别是家谱学家可以获得提名名单:所产生的信息将在FranceArchives和合作伙伴部门档案网站上传播并可自由重复使用,使任何人都能自由浏览数亿数据。

SOCFACE的目标是首次在档案中大规模使用自动转录技术,这是一个非常受欢迎的来源,既用于家谱研究,也用于历史和人口学研究。