Zu Content springen

Kann KI bei der Erschliessung historischer Kinderbücher aus dem 19. Jahrhundert helfen?

Markus Stauffiger
Markus Stauffiger |


bielefeld-qualitaetsvergleich-1Bildausschnitt aus dem Prototyp des Qualitätsvergleichstools. Links die manuell erfasste Bücherstruktur, rechts die KI‑generierte – hier noch ohne manuelle Qualitätssicherung

Das Colibri-Projekt

Mit dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt Colibri – Corpus Libri et Liberi wird historische Kinder- und Jugendliteratur des 19. Jahrhunderts digitalisiert und zugänglich gemacht. Insgesamt umfasst die Sammlung rund 15’000 bibliografische Einheiten deutschsprachiger Werke aus den Jahren 1801 bis 1914. Mehrere renommierte Bibliotheken sind daran beteiligt, darunter die Universitätsbibliothek Bielefeld, die Staatsbibliothek zu Berlin – Preussischer Kulturbesitz, die Universitätsbibliothek der TU Braunschweig und die Internationale Jugendbibliothek München.

Die Herausforderung

Obwohl die Bücher bereits gescannt sind, blieb ein grosser Teil der Inhalte aufgrund personeller Engpässe ungenügend erschlossen. Gerade historische Layouts, alte Schriftarten und wechselhafte Kapitelstrukturen stellen bei einer manuellen Aufarbeitung hohe Anforderungen dar. Die Bielefelder Bibliotheksdirektorin Barbara Knorn suchte daher nach einem innovativen Ansatz, um diese Bestände rascher und ressourcenschonender zugänglich zu machen. Zusammen mit Artur Nold, dem Leiter der Abteilung Bibliothekstechnologie, initiierte sie einen Pilotversuch auf Basis moderner KI-Werkzeuge.

Der Pilot: KI trifft auf Kinderbücher

Ziele des Piloten

  • Automatische Erkennung von Buchstrukturen (Kapitel, Abschnitte, ggfs. Werbeanzeigen)
  • Extraktion von Inhaltsverzeichnissen
  • Identifikation und Beschreibung von Bildelementen
  • Erzeugung von METS‑XML‑Dateien, die künftig in Goobi integrierbar wären

Vorgehen

  • Einsatz grosser Sprachmodelle (hier GPT-4o) ohne Nutzung des bereits vorhandenen OCR
  • Verarbeitung in kleinen Blöcken (fünf Seiten pro Durchgang), weil ein LLM gegenwärtig nicht das gesamte Buch auf einmal verarbeiten kannn
  • Kombination klassischer Programmierung und KI-Methoden, um die Daten zusammenzuführen und aufzubereiten
  • Qualitätssicherung durch das Bibliotheksteam, das nach wie vor den Überblick behält und bei Unklarheiten eingreift

Besonderheiten

Im Gegensatz zu älteren KI-Ansätzen benötigt dieses System keine spezifische Konfiguration oder kein eigenes Training pro Buch oder Layout. Gerade hierin liegt die Stärke der neuen Modelle: Sie erkennen Kapitel unabhängig vom Layout und können die Informationen semantisch erschliessen.

Herausforderungen & erste Erkenntnisse

  • Keine durchgehende quantitative Erfolgsmessung
    Da es sich um einen Pilotversuch handelte, wurden keine detaillierten Kennzahlen erhoben. Die Ergebnisse waren meist sehr gut, teils noch ausbaufähig.

  • Qualitätsvergleich in der Praxis
    Um die Ergebnisse gut beurteilen zu können, kam eine Qualitätsvergleichs-Website zum Einsatz, anstatt in komplexen METS-XML-Dateien zu suchen. So liess sich direkt überprüfen, wie gut Kapitel, Bilder oder Werbung erkannt wurden.

  • Hierarchie-Ebenen
    Das Test-Setup war primär auf Bücher mit einer Hierarchie-Ebene ausgelegt. Komplexere Strukturen (z.B. mehrere Teile, Unterkapitel oder unregelmässige Kapitel) sind noch verbesserungswürdig und wurden im Pilot lediglich angeschnitten.

  • Goobi-Integration
    Eine direkte Einbindung der generierten METS-Dateien in Goobi wurde geprüft und ist technisch machbar. Eine Umsetzung wäre allerdings ausserhalb des Rahmen dieses kurzen Piloten.

Trotz einiger Limitierungen zeigte sich bereits in den Tests ein hohes Potenzial: Durch KI kann viel Handarbeit entfallen, während die Fachkräfte den Fokus auf Inhaltskurierung und Qualitätssicherung legen.

Ein weiteres Beispiel: Die Unterteilung «Erster Teil» mit seinen Unterkapiteln wurde aufgrund des Pilot‑Set‑ups nicht separat erkannt. 

bielefeld-qualitaetsvergleich-2

Hier zeigt sich, dass für eine rein manuelle, detaillierte Erschliessung die Zeit fehlte, während die KI die Struktur mit wenigen Fehlern generiert hat:

bielefeld-qualitaetsvergleich-3

Warum das spannend ist

  • Entlastung von Routinetätigkeiten
    Statt stundenlangem Abtippen und händischem Strukturieren können Mitarbeitende jene Aufgaben übernehmen, die tiefergehende Fachkenntnisse erfordern – beispielsweise die Qualitätssicherung, die historische Einordnung und die Kontextualisierung.

  • Skalierbarkeit auf tausende Bücher
    Das Vorgehen vom Pilot kann, mit wenigen Anpassungen, problemlos auf tausende Bücher ausgeweitet werden. Die Modelle arbeiten geduldig und schnell, ohne dass für jedes neue Layout zusätzliche Konfigurationen notwendig sind.

  • Ausbau interner KI‑Kompetenzen
    Die Universitätsbibliothek Bielefeld plant, gegleitet vom Archipanion-Team, das Wissen und die Kapazitäten rund um KI-Systeme kontinuierlich auszubauen. Zudem wird geprüft, wie man lokale Lösungen (On-Premise-KI) nutzen kann, um Datenschutz und Datensouveränität zu wahren.

Mensch und KI – Ein starkes Team

Gerade in einem so vielschichtigen Bereich wie historischen Buchbeständen braucht es weiterhin fachliche Expertise: Die KI übernimmt die repetitive Routine, entlastet Bibliothekarinnen und Bibliothekare und ermöglicht so mehr Zeit für Qualitätssicherung und inhaltliche Tiefenerschliessung. Wer diese Chance nutzt, kann alte Schätze zügig zugänglich machen – ohne das Fachpersonal zu ersetzen, sondern es vielmehr zu stärken. 

Diesen Beitrag teilen