
Étude de cas : Valoriser des livres du XIXᵉ siècle avec l'IA | Archipanion

Détail du prototype de l’outil de comparaison de qualité. À gauche, la structure du livre saisie manuellement ; à droite, celle générée par l’IA – encore sans assurance qualitémanuel.
Le projet Colibri
Financé par la Fondation allemande pour la recherche (DFG), le projet Colibri – Corpus Libri et Liberi vise à numériser et rendre accessible la littérature pour enfants et jeunes du XIXᵉ siècle. La collection comprend environ 15 000 unités bibliographiques d’ouvrages en langue allemande publiés entre 1801 et 1914. Plusieurs bibliothèques renommées y participent : la Bibliothèque universitaire de Bielefeld, la Bibliothèque d’État de Berlin – Fondation du patrimoine culturel prussien, la Bibliothèque de l’Université technique de Brunswick ainsi que la Bibliothèque internationale de la jeunesse de Munich.
Le défi
Bien que les ouvrages soient déjà scannés, une large partie de leur contenu reste insuffisamment indexée par manque de personnel. Les mises en page historiques, les anciennes polices et les structures de chapitres irrégulières rendent le traitement manuel particulièrement exigeant. La directrice Barbara Knorn cherchait donc une approche innovante pour rendre ces fonds accessibles plus rapidement et avec moins de ressources. Avec Artur Nold, responsable de l'informatique documentaire, elle a lancé un pilote basé sur des outils d’IA modernes.
Le pilote : l’IA rencontre des livres pour enfants.
Objectifs du pilote
- Reconnaissance automatique des structures de livre (chapitres, sections et éventuellement publicités)
- Extraction des tables des matières
- Identification et description des éléments d’image
- Génération de fichiers METS XML pouvant être intégrés ultérieurement à Goobi
Méthodologie
- Utilisation de grands modèles de langue (GPT‑4o ici) sans recourir à l’OCR existant
- Traitement par blocs de cinq pages, un LLM ne pouvant pas encore gérer un livre entier d’un coup
- Combinaison de programmation classique et de méthodes IA pour fusionner et préparer les données
- Assurance qualité par l’équipe de la bibliothèque, qui garde la vue d’ensemble et intervient en cas de doute
Particularités
Contrairement aux approches IA plus anciennes, ce système ne nécessite ni configuration spécifique ni entraînement dédié pour chaque livre ou mise en page. C’est là la force des nouveaux modèles : ils reconnaissent les chapitres indépendamment du layout et interprètent l’information de façon sémantique.
Défis et premières constatations
- Absence de mesure quantitative continue
S’agissant d’un pilote, aucun indicateur détaillé n’a été relevé. Les résultats sont le plus souvent excellents, parfois perfectibles. - Comparaison de qualité en pratique
Un site web dédié à la comparaison a été utilisé au lieu d'analyser dans les fichiers METS XML complexes, permettant de vérifier directement la reconnaissance des chapitres, images ou publicités. - Niveaux hiérarchiques
Le périmètre de ce pilote surtout conçu pour des livres à un seul niveau de hiérarchie. Des structures plus complexes (plusieurs parties, sous‑chapitres ou chapitres irréguliers) restent à améliorer et n’ont été qu’effleurées. - Intégration Goobi
L’intégration directe des fichiers METS générés dans Goobi a été examinée et s’avère techniquement faisable, mais hors du cadre de ce pilote court.
Malgré certaines limites, les tests ont déjà révélé un fort potentiel : l’IA peut éliminer beaucoup de travail manuel, tandis que les experts se concentrent sur la curation de contenu et l’assurance qualité.
Autre exemple : la subdivision « Première partie » et ses sous‑chapitres n’a pas été reconnue séparément en raison du paramétrage du pilote.
On voit ici qu’un catalogage manuel détaillé aurait pris trop de temps, tandis que l’IA a produit la structure avec peu d’erreurs.
Pourquoi c’est passionnant
- Allègement des tâches répétitives
Au lieu de taper et structurer manuellement pendant des heures, le personnel peut se consacrer à des tâches à plus haute valeur ajoutée, comme l'assurance qualité, l'analyse critique et l'interprétation historique - Mise à l'échelle sur des milliers de livres
La méthode du pilote peut être facilement étendue à des milliers d’ouvrages avec peu d’ajustements. Les modèles travaillent avec patience et rapidité, sans configuration supplémentaire pour chaque nouveau layout. - Développement des compétences internes en IA
La Bibliothèque universitaire de Bielefeld prévoit, avec l’équipe d’Archipanion, d’élargir en continu ses connaissances et capacités autour des systèmes d’IA. Elle étudie aussi des solutions locales (IA on‑premise) afin de garantir protection et souveraineté des données.
L’humain et l’IA – un duo solide
Dans un domaine aussi complexe que les collections de livres historiques, l’expertise reste indispensable : l’IA prend en charge les tâches répétitives, décharge les bibliothécaires et libère du temps pour l'assurance qualité et un catalogage fin. Ceux qui saisissent cette opportunité peuvent rendre d’anciens trésors rapidement accessibles – non pas en remplaçant le personnel, mais en le valorisant.