Zu Content springen

10’000 Karteikarten aus dem Zweiten Weltkrieg durchsuchbar

Dieses Innovationsprojekt machte eine Auswahl von 10’000 Karteikarten aus dem Bestand des Schweizerischen Bundesarchivs digital durchsuchbar und verkürzte die Recherchezeit von Monaten auf Minuten.

metadata-extraction-hero_EN-1

Projektergebnisse

  • 10’000 Kriegsgefangenen-Datensätze wurden digitalisiert, und zentrale Felder wurden mithilfe von KI als strukturierte Daten extrahiert, sodass nach Name, Geburtsdatum und Geburtsort gesucht werden kann.
  • Mitarbeitende des Archivs können die Sammlung heute in Minuten durchsuchen, der Zugriff für Forschende ggfs. ist für eine spätere Phase geplant.
  • Die Suchoberfläche verknüpft jeden Treffer mit dem originalen digitalisierten Scan, wodurch der historische Kontext erhalten bleibt.

Das Problem: Bewahrte Bestände, eingeschränkte Suche

Viele Archivbestände liegen noch als physische Karten, Briefe und Register vor. Sie werden sorgfältig bewahrt, sind aber nur Objekt für Objekt recherchierbar. Dadurch waren Forschungsfragen über eine ganze Sammlung hinweg bislang kaum möglich.

So war es auch im Schweizerischen Bundesarchiv (BAR). Dort lag eine grosse Sammlung von Kriegsgefangenen-Karteikarten, die die Schicksale von Kriegsgefangenen dokumentiert, inklusive zentraler historischer Details für Familien sowie Historikerinnen und Historiker, etwa Namen, Daten, Orte, Lager und Bewegungen.

Zu Beginn des Projekts waren diese Karten nur vor Ort in den Lesesälen zugänglich, und Forschende mussten sie Karte für Karte sichten, ein arbeitsintensiver Prozess.

Die Innovations-Challenge

Angesichts des historischen Werts der Sammlung und der Ineffizienz der Karte-für-Karte-Recherche lancierte das Schweizerische Bundesarchiv (BAR) eine Innovations-Challenge. Das Ziel war eine Lösung, die:

  • jede Karte in strukturierte, maschinenlesbare Daten überführt, die Computer und Datenbanken sammlungsweit durchsuchen können,
  • dem Archivpersonal ermöglicht, Datensätze in der gesamten Sammlung abzufragen und zu finden, statt manuell Karte für Karte zu recherchieren,
  • jeden Suchtreffer mit dem originalen digitalisierten Scan verknüpft, um den historischen Kontext zu bewahren.

Die Lösung: Sammlung mit KI durchsuchbar machen und den historischen Kontext bewahren

2023 implementierte das Archipanion-Team eine Pilotlösung, um diese Sammlung mithilfe von Künstlicher Intelligenz (KI) in eine durchsuchbare historische Ressource zu transformieren.

Diese Arbeit basierte auf drei zentralen Schritten:

  • OCR: Tools zur optischen Zeichenerkennung (OCR) (z.B. Google Vision und Tesseract OCR) wurden auf jede gescannte Karteikarte angewandt, um gedruckten oder handschriftlichen Text in maschinenlesbare Daten zu überführen.

  • Large Language Models (LLMs): LLMs (z.B. GPT-4 und Llama 2) wurden anschliessend eingesetzt, um den Text zu analysieren und in strukturierte Datensätze zu überführen. Dabei wurden die Modelle angewiesen, spezifische Datenfelder pro Karte zu extrahieren, etwa Vorname, Nachname sowie Geburtsdatum und Geburtsort.

  • Bestandsoberfläche: Die extrahierten Daten wurden über eine speziell entwickelte Weboberfläche durchsuchbar gemacht. Die strukturierten Daten stehen zudem als Export (CSV/Excel) zur Verfügung, zur Integration in Archiv-Informationssysteme (AIS) und Forschungsdatenbanken.
bildschirm-bar-cards

Screenshot der speziell entwickelten Suchoberfläche. Jeder Treffer ist mit dem originalen digitalisierten Scan verknüpft, wodurch der historische Kontext erhalten bleibt.

Resultate und Nutzen

Nach Aufbau dieses Drei-Schritt-Prozesses führte das Team ein Pilotprojekt mit 10’000 Karten durch (der Gesamtbestand umfasst 500’000). Die Ergebnisse:

  • Effizienzgewinne für archivische Workflows: Sobald der Prozess stand, ermöglichte der KI-gestützte Workflow die Digitalisierung und KI-gestützte Erschliessung von 10’000 Karteikarten in sehr kurzer Zeit. Ohne KI hätte eine Datenerfassung in dieser Grössenordnung Monate, wenn nicht Jahre, gedauert.

  • Sammlung durchsuchbar und besser nutzbar: Die speziell entwickelte Suchoberfläche ermöglichte eine Recherche im grossen Massstab. Forschende können alle 10’000 Datensätze abfragen, um Muster, Trends und Zusammenhänge zwischen Personen, Orten und Daten zu erkennen. Wichtig: Archipanion stellte die strukturierten Daten auch als CSV/Excel für die Integration in andere Forschungsdatenbanken bereit, wodurch eine Querverknüpfung mit weiteren Unterlagen möglich wird.

Learnings und nächste Schritte

Diese Partnerschaft brachte KI und archivische Expertise zusammen. Das Fachwissen der Archivarinnen und Archivare war in vielen Phasen entscheidend, unter anderem bei der Festlegung, welche Datenpunkte erfasst werden sollen, sowie bei der Qualitätsprüfung der Ergebnisse.

Die Zusammenarbeit ermöglichte dem Archipanion-Team zudem, während des Projekts iterativ weiterzuentwickeln, gesteuert durch Feedback aus dem Archiv. Gleichzeitig wurden Mitarbeitende des Schweizerischen Bundesarchivs sicherer im Experimentieren mit KI-Technologien und entwickelten ein klares Verständnis dafür, was diese Werkzeuge leisten können.

Seit Abschluss dieser Arbeit hat sich KI stark weiterentwickelt. Moderne multimodale LLMs können gescannte Dokumente heute End-to-End verarbeiten, ohne separaten OCR-Schritt. Das vereinfacht den Workflow weiter, reduziert die Komplexität und verbessert in vielen Fällen die Genauigkeit. Dieser Ansatz lässt sich nun auf unterschiedlichste Archivbestände anwenden, macht sie deutlich nutzbarer und zugänglicher für die Forschung und erschliesst eine Fülle von Geschichten, die noch darauf warten, erzählt zu werden.

Bereit, KI für Ihre Bestände und Sammlungen zu nutzen?