Die automatische Handschrifterkennung bietet jetzt maßgeschneiderte Lösungen für die Verarbeitung einer Reihe von Archivquellen. Aktueller Stand der laufenden Projekte.
Moderne Technologien, in diesem Fall künstliche Intelligenz, revolutionieren die Archivforschung und die Nutzung von Quellen. In einem Wartung die sie uns im September gewährt hat, Françoise Banat-Berger, Leiterin des interministeriellen Archives de France im Kulturministerium auf die Bedeutung dieser Fortschritte eingegangen ist, insbesondere durch die Vorlage eines Vorzeigeprojekts - des Projekts SOCFACE -, das darauf abzielt, durch die Auswertung der Volkszählungen von 1836 bis 1936 zu untersuchen, die Entwicklung der französischen Gesellschaft über ein Jahrhundert.
Dieses Projekt ist bei weitem nicht das einzige, das künstliche Intelligenz einsetzt. Das Nationalarchiv war Pionier mit mehreren spannenden Projekten - HIMANIS, SIMARA und LECTOREP - die die Breite und Vielfalt der Anwendung dieser Technologien auf bestimmte Korpusse zeigen: mittelalterliche Manuskripte, Inventare des alten Regimes, Volkszählungen.... « Es ist jedes Mal ein neues Abenteuer «, versicherte Marie-Françoise Limon-Bonnet, Generalkuratorin des Nationalarchivs, anlässlich eines Rundtischgesprächs «Die Archive in allen Buchstaben: die künstliche Intelligenz im Dienst der Quellen», der am 26. September in Mandelieu-La Napoule anläßlich der Woche der Genealogie. Bericht.
Mittelalterliche Manuskripte, Inventare von Ancien Régime, Volkszählungen.... Immer wieder ein neues Abenteuer
Wertvolle Manuskripte aus dem Mittelalter
HIMANIS, für Historical manuscript indexing for user-controlled searchDas im Jahr 2015 gestartete europäische Forschungsprojekt verbindet unter der Leitung des Instituts für Forschung und Geschichte der Texte (IRHT) in Frankreich das innovative Unternehmen A2iA mit niederländischen und spanischen Ingenieuren und Akademikern. Es dient der Indexierung des Textes der Register der französischen Königskanzlei aus den Jahren 1302-1483, die im Nationalarchiv aufbewahrt werden.
Dank der Zusammenarbeit zwischen Kultureinrichtungen, Geistes- und Sozialwissenschaftlern und Forschern auf dem Gebiet der Informatik und der künstlichen Intelligenz Die Projektpartner haben es geschafft, den Volltext von über 75'000 Seiten mittelalterlichen Manuskripten zu indexieren », gratuliert Marie-Françoise Limon-Bonnet. « Das Institut für Forschung und Geschichte der Texte, das alte Manuskripte in Französisch und Latein studiert, hat sich zu diesem Anlass mit einem Kurator des Archivs zusammengetan. Das Ziel von HIMANIS ist es, Inhalte in großem Umfang hervorzuheben. Die Generationen von Archivaren und Historikern, die in der Vergangenheit aufeinander folgten, konnten nur einen Teil der Manuskripte studieren »
SIMARA: Erleichterung der Arbeit von Archivaren
Der Projekt SIMARA, «Erfassung handschriftlicher Inventare mit Hilfe der automatischen Erkennung», zielt darauf ab, eine Plattform für die Umwandlung der handschriftlichen Inventare und Indexe vom Ende des 18. bis zum 20. Jahrhundert des Archivs des Mittelalters und des Ancien Régime zu entwickeln. « Wir sind auf der Seite der Archivare, SIMARA ist ein Geschäftsprojekt », erklärt Christopher Kermorvant, Gründer der Firma Teklia, Projektleiter « Soweit die Arbeit unserer Vorgänger handschriftlich war, erklärt er, Die Herausforderung besteht darin, sicherzustellen, dass alle Inventare online sind »
Konkret führt SIMARA gleichzeitig zwei Operationen durch: die automatische Transkription durch Erkennung von Handschriften und die Platzierung des Textes in einem Formular, dessen Felder Elementen der Markierung von Archivbeschreibungen entsprechen. Und sparen Sie Zeit. Darüber hinaus kann die Plattform in Zukunft für weitere Projekte zur Transkription von Archivbeständen desselben Zeitraums genutzt werden.
Die Familiennamen, ein unerschöpfliches Reservoir an Reichtum
Das Projekt LECTAUREPZum automatischen Auslesen von Verzeichnissen, das 2018 eingeführt wurde, ist den Registern der notariellen Urkunden gewidmet, einer der am häufigsten abgerufenen historischen Quellen im Nationalarchiv. Die künstliche Intelligenz, die auf die Verarbeitung dieser Manuskripte angewendet wird, erfordert die Entwicklung einer Plattform, die die resultierenden Transkriptionen und Anmerkungen korrigiert und detaillierte Metadaten zu den Dokumenten liefert.
« Mit den Familiennamen verfügen wir über ein unerschöpfliches Reservoir an Reichtümern , so Marie-Françoise Limon-Bonnet. Dieses Projekt, um auf die industrielle Ebene zu gelangen, wird Freiwillige benötigen ». Sie fährt fort, « Wenn das Segmentierungsmodell des verwendeten Textes gut ist, kann es vorkommen, daß man nicht weiß, wo diese oder jene kohärente Textgruppe aufhört, insbesondere für die Verzeichnisse des 19. Jahrhunderts, in denen die Schrift in derExtrem». Problem, das bei Handschriften von Ancien Régime, für die « das Modell funktioniert bemerkenswert gut »
Wenn sich das Frankreich der Aufklärung offenbart
« Durch die Fragen der Straßen, der Einrichtung von Gestüten und Baumschulen entwickelt sich das ganze Frankreich der Aufklärung vernünftig und gibt sich zu sehen »: So beschreibt Édouard Bouyé, Direktor des Departementsarchivs der Côte d'Or, den Inhalt des Archivs der burgundischen Staaten im Herzen des Projekt «Briefe in der Aufklärung».
« Im Rahmen der für dieses Projekt gewählten Technologie, Mask RNCC, haben wir 25 Freiwillige, die 1500 Seiten transkribiert haben », freut er sich. Transkriptoren, die in Zukunft Korrektoren werden.« Ziel ist es, ein Werkzeug zu haben, das ständig lernen kann und Genealogen die Möglichkeit bietet, Seiten und Seiten zu schreiben. Es ist auch notwendig, diese Seiten zu sammeln und möglicherweise interessante Informationen zu finden »
SOCFACE, das erste große Projekt zur Analyse der demografischen Entwicklung
SOCFACE, ein Forschungsprojekt mit künstlicher Intelligenz, verbindet das Ministerium für Kultur (interministerieller Dienst des französischen Archivs), öffentliche Archivdienste und Akteure aus Forschung und Innovation (Nationales Institut für Bevölkerungsstudien, Gesellschaft Teklia, Paris Sciences et Lettres), um die Volkszählungen der französischen Bevölkerung von 1836 bis 1936 öffentlich auszuwerten.
Das von der Nationalen Forschungsagentur (ANR) finanzierte Kulturprojekt zur automatischen Erkennung von Handschriften ist das erste landesweite Projekt, das 15 Millionen Bilder von Namenslisten der Volkszählung verarbeiten wird, wird eine Datenbank aller Personen erstellen, die zwischen 1836 und 1936 in Frankreich gelebt haben, und sie zur Analyse sozialer Veränderungen über einen längeren Zeitraum verwenden. « Ziel ist es, möglichst viele Daten zu sammeln, damit sich eine individuelle und nationale Wirtschafts- und Sozialgeschichte abzeichnet », bestätigt Christopher Kermorvant, Gründungspräsident von Teklia, und erklärt, dass « in der sozialwissenschaftlichen Forschung werden zunehmend aggregierte Daten verwendet ». Bis heute heißt es « Drei Millionen Bilder [die] wurden im Departementarchiv gesammelt »
Eine weitere wichtige Auswirkung von SOCFACE wird der Zugang zu Namenslisten für die breite Öffentlichkeit sein, insbesondere für Genealogen: Die produzierten Informationen werden verbreitet und frei wiederverwendbar auf France Archives und auf den Seiten der Partner-Departementsarchive, sodass jeder Hunderte von Millionen Daten frei durchsuchen kann.
Das Ziel von SOCFACE ist es, erstmals in großem Maßstab in Archiven für automatische Transkriptionstechnologien auf einer Quelle zu verwenden, die sowohl für genealogische Forschung als auch für historische und demografische Studien sehr beliebt ist.