Zu Content springen

Protokolle von Ratssitzungen im Historischen Archiv der Europäischen Union thematisch durchsuchbar machen

Das Historische Archiv der Europäischen Union arbeitete mit Archipanion zusammen, um Agendentexte aus grossen, mehrsprachigen Ratsprotokollen zu extrahieren und diese als durchsuchbare Metadaten in das bestehende Archivinformationssystem einzuspeisen.

EU Screenshot

Zusammenfassung

Das Historische Archiv der Europäischen Union bewahrt die Archive der EU‑Institutionen auf und macht sie zugänglich; viele Bestände sind über einen Online‑Katalog verfügbar. Das Archiv unterstützt die Forschung zur Geschichte der europäischen Zusammenarbeit und der politischen Entscheidungsfindung im Laufe der Zeit.

Ein Teil des Archivs umfasst die Protokolle der Sitzungen des Rates der Europäischen Gemeinschaften (des Vorgängers des heutigen Rates der Europäischen Union), bei denen sich die Minister trafen, um politische Massnahmen zu verhandeln und zu beschliessen.

Diese Unterlagen sind für Forschende wertvolle Primärquellen zur Untersuchung, wie Politik diskutiert und vereinbart wurde, weisen aber auch ein praktisches Zugangsproblem auf. Die Protokolle liegen nur als eingescannte PDFs vor, so dass sie zwar nach Datum und Sitzungsbezeichnung durchsuchbar sind, nicht aber nach den behandelten Themen oder Tagesordnungspunkten, weil diese Informationen nicht als durchsuchbarer Text erfasst sind.

Um dieses Problem zu lösen, nutzte das Historische Archiv der Europäischen Union den KI‑gestützten Metadaten‑Extraktionsdienst von Archipanion, um die Tagesordnungstexte aus diesen grossen, mehrsprachigen Ratsprotokollen zu ermitteln und zu extrahieren. Die extrahierten Inhalte wurden dann als strukturierte Daten in den bestehenden Katalog des Archivs zurückgespielt, wodurch eine themenbasierte Suche möglich wurde.

Ergebnisse

  • Das Pilotprojekt umfasste etwa 70 Ratsprotokolle aus drei repräsentativen Jahren.
  • Nach dem erfolgreichen Pilotprojekt wurde der KI‑Metadaten‑Extraktionsdienst von Archipanion auf rund 430 weitere Ratsprotokolle angewandt.
  • Die extrahierten Tagesordnungstexte wurden inzwischen in das Katalogsystem des Archivs eingespielt und sind über diese Oberfläche öffentlich zugänglich, so dass Ratsprotokolle nun nicht nur nach Datum und Titel, sondern auch nach Thema durchsuchbar sind.

Die Herausforderung

Ratsprotokolle können sich über viele Dutzend oder sogar Hunderte von Seiten erstrecken, unter anderem weil dieselben Sitzungsunterlagen in mehreren Sprachen innerhalb eines Dokuments präsentiert werden. Obwohl die Unterlagen bereits im Archiv verfügbar waren, machte sie das nicht leicht thematisch durchsuchbar. Forschende konnten gezielt einzelne Protokolle abrufen, wenn sie bereits wussten, welche Daten sie suchen mussten; die thematische Suche blieb jedoch eingeschränkt, wenn der Katalogeintrag nur minimale Beschreibungsfelder wie das Datum und einen generischen Sitzungstitel enthielt.

Für Forschende ist die Tagesordnung oft der nützlichste Hinweis darauf, worum es in einer Sitzung ging. Sie zeigt, was besprochen werden sollte, und bietet einen kompakten Leitfaden für den weiteren Inhalt, der in der Regel dem entspricht, was später im Protokoll festgehalten wurde, abgesehen von gelegentlichen kleinen Ergänzungen.

Für das Archiv war daher die Extraktion der Tagesordnung der klarste und praktischste Ansatz zur Verbesserung des Zugangs. Ziel war nicht die vollständige Transkription jeder Seite, sondern die zuverlässige Extraktion des Tagesordnungsteils, damit Ratsprotokolle im bestehenden Katalogsystem nach Themen gefunden werden konnten.

Eine zweite Herausforderung war struktureller Natur. In diesen grossen gescannten Dateien befindet sich die Tagesordnung nicht an einer festen, vorhersehbaren Stelle. Sie kann tief im Dokument verborgen sein; die Aufgabe bestand also nicht nur in der Textextraktion, sondern auch in der Erkennung der Tagesordnung: die richtige Passage in vielen langen Dateien konsistent zu identifizieren.

Die Pilotphase

Die Zusammenarbeit begann mit einer Pilotphase, in der zwei Dinge getestet werden sollten: ob die KI‑gestützte Metadatenextraktion den Tagesordnungstext genau extrahieren kann und ob sie den richtigen Abschnitt innerhalb der Ratsprotokolle zuverlässig identifizieren kann.

Um die Extraktionsgenauigkeit zu bewerten, stellte das Historische Archiv der Europäischen Union einen Satz zuvor manuell transkribierter Tagesordnungen aus dem Jahr 1992 zur Verfügung, der etwa 30 Sitzungen abdeckte.
Dies gab Archipanion einen direkten Vergleichspunkt, um die KI‑extrahierten Ergebnisse mit bereits handschriftlich transkribierten Tagesordnungstexten zu vergleichen.

Die extrahierten Tagesordnungstexte von 1992 erwiesen sich in der Praxis als sehr genau. Da die Protokolle getippt und eingescannt und nicht handschriftlich waren, war das extrahierte Ergebnis mindestens so gut wie die manuelle Transkription und in einigen Fällen sogar besser – insbesondere dort, wo die manuelle Transkription mit sprachspezifischen Details kämpfte.

Der erweiterte Pilotversuch umfasste etwa 70 Ratsprotokolle aus drei repräsentativen Jahren und zeigte, dass der Arbeitsablauf auch in sehr langen mehrsprachigen Dateien zuverlässig den richtigen Tagesordnungsteil identifizieren konnte. Selbst wenn die Tagesordnung nicht an einer festen oder vorhersehbaren Stelle stand, konnte das KI‑System die relevante Passage konsequent finden und extrahieren. Der Erfolg des Pilotprojekts führte direkt zu einer grösseren Folgephase, die rund 430 weitere Ratsprotokolle umfasste.

Ergebnisse

Im Rahmen des Pilotprojekts und der anschliessenden Arbeiten extrahierte Archipanion die Tagesordnung aus etwa 500 langen, mehrsprachigen Ratsprotokollen, von denen einige Hunderte Seiten umfassten. Das gelieferte Ergebnis war eine Tabelle, die für die einfache Übernahme in die bestehenden Metadatenfelder des Archivs konzipiert war, sodass Tagesordnungs­schlagwörter innerhalb des Archivinformationssystems durchsuchbar werden konnten. Das Format war bewusst schlicht und systemfreundlich: eine Zeile pro Dokument, mit Feldern für den Dateinamen, den extrahierten Titel, die extrahierten Daten und ein Abstract-Feld mit dem Tagesordnungstext.

Die extrahierten Tagesordnungstexte wurden inzwischen in das Archivinformationssystem integriert und sind über dieses öffentlich zugänglich, sodass Forschende Sitzungen nach Themen finden können, statt sich nur auf datumsbasiertes Suchen zu verlassen.

EU Screenshot

Bild: Extrahierter Tagesordnungstext im Katalog des Historischen Archivs der Europäischen Union, der eine thematische Suche innerhalb der Ratsprotokolle ermöglicht.

Was dies für Archive und Bibliotheken zeigt

Diese Fallstudie ist ein überzeugendes Beispiel dafür, wie die KI‑gestützte Metadatenextraktion ein konkretes Zugangsproblem in Archiven gezielt löst. Grosse, komplexe digitale Dateien enthalten oft eine kleine Menge hoch­wertiger beschreibender Inhalte – wie Tagesordnungen, Inhaltsverzeichnisse, Register oder Zusammenfassungen –, die die Suchfähigkeit erheblich verbessern können, wenn sie extrahiert und in Metadatenfelder zurückgespielt werden.

In diesem Fall ermöglichte die Extraktion des Tagesordnungstextes aus sehr langen Ratsprotokollen einen Zugriff auf Material auf Themenebene, das zuvor eine seitenweise Lektüre oder eine reine Datumssuche erforderte. Während ein begrenzter Teil der Tagesordnungen bereits manuell transkribiert worden war, machte es die KI‑Metadatenextraktion möglich, den thematischen Zugriff viel schneller auf eine wesentlich grössere Menge von Unterlagen auszuweiten.

Zusammenfassend zeigt dieser Fall, dass bereits ein relativ kleiner Teil der Informationen innerhalb einer Sammlung – in diesem Fall die Tagesordnungen – genutzt werden kann, um einen gesamten Bestand zu erschliessen. Archive und Bibliotheken mit ähnlichen Beständen können denselben Ansatz anwenden, um die Auffindbarkeit einer Sammlung erheblich zu erhöhen. Um zu erkunden, wie dies für Ihre eigenen Unterlagen aussehen könnte, freut sich Archipanion über die Gelegenheit, Ihre Sammlungen zu prüfen und ihre Eignung für die Metadatenextraktion zu beurteilen.

Ready to explore AI for your collections?