
Strukturierte Metadaten aus Archivbeständen extrahieren

- Viele Archivbestände liegen noch immer als Papierunterlagen vor: Karteikarten, Briefe, Register, Handschriften sowie Unterlagen aus Verwaltung und Wirtschaft. Sie werden sorgfältig bewahrt, lassen sich jedoch nicht wie eine Datenbank durchsuchen. Um alle Unterlagen zu finden, in denen ein bestimmter Name, Ort oder ein Datum erwähnt wird, müsste der gesamte Bestand manuell durchgesehen werden – ein Prozess, der bei grossen Beständen Monate oder Jahre dauern kann. Auch nach der Digitalisierung bleiben viele Scans reine Bilder und damit nicht durchsuchbar.
- Mit KI lassen sich grosse Mengen gescannter Dokumente in strukturierte, durchsuchbare Datensätze überführen. Die Scans werden in maschinenlesbaren Text umgewandelt, relevante Felder extrahiert, und eine Suchoberfläche ermöglicht es Mitarbeitenden und Forschenden, den gesamten Bestand zu durchsuchen – und Fragen in Sekunden zu beantworten, die früher Monate beanspruchten.
- Dabei behalten Sie jederzeit die Kontrolle: Sie entscheiden, welche Daten extrahiert werden, prüfen die Qualität der Ergebnisse und legen fest, wie die Daten in bestehende Kataloge und Systeme zurückfliessen. Die KI übernimmt die repetitive Extraktion, Ihr Team konzentriert sich auf Qualitätssicherung, historischen Kontext und fachliche Beurteilung.
Wir arbeiten mit Archiven, Bibliotheken und Museen in ganz Europa und darüber hinaus zusammen, um die Möglichkeiten von KI für das kulturelle Erbe weiterzuentwickeln.

Von gescannten Seiten zu Text

Von Text zu strukturierten Daten

Von strukturierten Daten zur Erschliessung
Metadatenextraktion für unsere Kundinnen und Kunden


Zentralarchiv der Evangelischen Kirche der Pfalz
Innerhalb weniger Wochen wurden 1’548 Registerkarten von einem physischen Bestand in durchsuchbare digitale Datensätze überführt.

Universitätsbibliothek Bielefeld
Einsatz von KI zur Beschleunigung der Katalogisierung von Kinderbüchern des 19. Jahrhunderts.
Unser Prozess in drei Phasen
Von der ersten Idee bis zum täglichen Einsatz begleiten wir Sie mit einem klaren und erprobten Vorgehen. So stellen wir sicher, dass Sie genau die Ergebnisse erhalten, die Sie für Ihre Arbeit benötigen.
Phase 1: Analyse & Planung
Wir beginnen damit, Ihre Bestände, Rahmenbedingungen und Ziele zu verstehen und entwickeln darauf aufbauend einen Workflow, der zu Ihren Anforderungen passt.
-
Quellen: Gemeinsam prüfen wir Beispiele aus Ihren Beständen, um Formate, Lesbarkeit, Sprachen, vorhandene Metadaten und Strukturen zu verstehen.
-
Digitalisierung: Falls Teile des Materials noch nicht digitalisiert sind, unterstützen wir Sie bei der Entscheidung, wie dies am besten umgesetzt wird – mit Ihrem eigenen Team oder mit bewährten Partnern.
-
Review-Workflow: Gemeinsam legen wir fest, welche Felder extrahiert werden sollen und ob und wie eine Oberfläche zur Qualitätsprüfung in Ihre bestehenden Arbeitsabläufe integriert wird.
-
Tests: Wir führen einen technischen Test durch, um sicherzustellen, dass der geplante Ansatz funktioniert.
Phase 2: Pilot
Wo sinnvoll, führen ein fokussiertes Pilotprojekt durch, damit Sie konkrete Ergebnisse an Ihrem eigenen Material sehen können.
-
Pilot-Datensatz: Wir definieren gemeinsam eine überschaubare Teilmenge von Datensätzen, die für den Gesamtbestand repräsentativ ist.
-
KI-Extraktion: Die Scans werden aufbereitet und in maschinenlesbaren Text überführt. Die ausgewählten Felder (z. B. Namen, Daten, Orte, Organisationen und Schlagwörter) werden in strukturierte Daten überführt.
-
Menschliche Prüfung: Ihr Team prüft und verfeinert die extrahierten Daten in einer Oberfläche zur Qualitätskontrolle, gleicht sie mit den Originalscans ab, korrigiert Fehler und ergänzt Informationen bei Bedarf.
-
Evaluation: Gemeinsam bewerten wir die Ergebnisse des Pilotprojekts und stellen sicher, dass der Ansatz bereit für die Skalierung ist.
Phase 3: Skalierung & Integration
Wir skalieren den Ansatz.
-
Gesamtbestand: Der verfeinerte Workflow wird auf den gesamten Bestand angewendet, basierend auf den Erkenntnissen aus dem Pilotprojekt.
-
Datenbereitstellung: Sie erhalten die Metadaten in den benötigten Formaten (z. B. CSV, Excel oder XML), bereit zur Nutzung in Ihren eigenen Systemen.
-
Suchoberflaeche (optional): Bei Bedarf stellen wir eine Web-Suchoberfläche bereit, mit der Mitarbeitende und Forschende den Datenbestand durchsuchen und filtern können. Jedes Ergebnis ist mit dem entsprechenden Digitalisat verknüpft – zur Einordnung und Überprüfung.
-
Integration und Weiterverwendung: Wir unterstützen Ihr Team bei der Integration der neuen Daten und Werkzeuge in bestehende Arbeitsabläufe und bei der Wiederverwendung des Prozesses für zukünftige Bestände.
Bereit, diesen Ansatz für Ihre Bestände zu erkunden?
Lassen Sie uns Ihr Material, Ihre Ziele und die Ergebnisse betrachten, die Sie realistisch erwarten können. Ein kurzes Gespräch genügt, um zu klären, ob dieser Ansatz zu Ihren Beständen passt.

Unsere Fallstudien entdecken
Für Bestände, die sorgfältig bewahrt werden, aber nur einzeln recherchierbar sind, eröffnet Metadatenextraktion neue Möglichkeiten. Forschende können über ganze Bestände hinweg suchen – nach Namen, Daten, Orten oder Themen – und erhalten Ergebnisse in Minuten statt in Monaten. Wenn Sie sehen möchten, wie unsere Kundinnen und Kunden dies nutzen, entdecken Sie unsere Fallstudien.