Archipanion Blog

Église évangélique du Palatinat – De la fiche cartonnée à la base de données

Rédigé par Markus Stauffiger | 3 juil. 2025 01:00:00

Comment les Archives centrales de l’Église évangélique du Palatinat ont valorisé l’instrument de recherche de leur Registre central en quelques semaines.

Interface web pour la comparaison directe entre scans et données, permettant un traitement rapide. 

Jusqu’à présent, l’instrument de recherche du Registre central du Conseil de l’Église évangélique du Palatinat se composait de deux séries de fiches d’indexation : un catalogue thématique et un catalogue classé selon le plan de classement. Le travail au sein du Registre central restait également à grande partie analogique. 

Pour permettre des méthodes de travail et de recherche contemporaines, et pour pouvoir réutiliser archivistiquement les métadonnées existantes, une transition numérique dans les processus du Registre central était indispensable et attendue de longue date.

La première étape fondamentale de la refonte des processus consistait donc à établir une base de travail numérique. Classiquement, cela aurait d’abord impliqué la saisie manuelle des métadonnées des fiches d’indexation dans la base de données. Dans le cas des fiches d’indexation du Registre central, les Archives centrales de Spire ont cependant décidé de lancer un pilote soutenu par l'IA.

Les raisons de cette décision sont multiples. En voici quelques-unes : 

  • Gestion contemporaine des instruments de recherche anciens, sans tâches décourageantes et obsolètes pour le nouveau personnel.
  • Lieu d’expérimentation pour des idées visant à optimiser les synergies via la numérisation.
  • Curiosité quant à ce que les processus assistés par IA peuvent – et ne peuvent pas – accomplir ; acquisition d’expérience dans un projet maîtrisable.

Contexte et objectifs :

Dans un premier temps, les Archives ont numérisé les fiches d’indexation en interne, conformément aux spécifications du prestataire. Un scanner à plat pour documents, petit et facile d’usage, doté d’un chargeur automatique, suffisait pour réaliser rapidement cette tâche. Un peu plus de temps a été nécessaire pour repérer les « cas spéciaux difficiles » parmi les fiches, qui s’écartaient fortement du modèle standard et servaient notamment de fichiers de test.

Le fichier, comprenant 3 096 scans de 1 548 fiches DIN A5, devait servir de base à la conversion assistée par IA des fiches imprimées avec annotations manuscrites en un fichier Excel. 

Formule décisionnelle : Humain ET Machine

Archipanion a prétraité les scans en associant recto et verso, extrait les champs à l’aide d’un grand modèle linguistique (LLM) et harmonisé les formats. Après quelques essais, cela a fonctionné dans de nombreux cas pour les fiches peu éloignées de la structure de base.

Pour les fiches dont la structure déviait sensiblement, l’IA a atteint ses limites. L’interprétation sémantique des annotations manuscrites et l’attribution des notes sont restées des tâches manuelles. Afin de capturer au mieux les informations des fiches analogiques, une assurance qualité très rigoureuse a été mise en place, comparant chaque scan aux métadonnées générées dans le tableau.

Pour rendre cela très convivial, Archipanion a fourni une interface web permettant de comparer directement les scans et les entrées générées, avec saisie instantanée des corrections. Le contrôle qualité, exigeant en ressources, a ainsi pu être réalisé à un niveau très élevé, de manière moderne et dans un délai maîtrisable. Les informations manquantes ou mal attribuées pouvaient être complétées rapidement et vérifiées pour leur plausibilité archivistique. L'assurance qualité a été achevée par l'archiviste en charge en six semaines.

Principaux indicateurs du projet et détails de traitement

Indicateur Valeur
Fiches traitées 1 548
Reconnaissance parfaite (aucune erreur) 481 fiches (31 %)
Corrections minimes (≤ 5 % CER) 926 fiches (60 %)
Taux d’erreur moyen (CER) 7,27 %
Champs reconnus parfaitement 89 %
Durée de l'assurance qualité env. 6 semaines

Note sur le taux d’erreur : la mesure est conservatrice. Lors du contrôle qualité, des erreurs supplémentaires dans l’instrument de recherche initial ont été corrigées ou mises à jour (p. ex. orthographe, classifications). Ces améliorations ne sont pas comptabilisées séparément et apparaissent donc dans la statistique CER, ce qui signifie que la qualité réelle des données est supérieure. 

Exemples

Des fiches comme celles-ci ont été reconnues parfaitement.  

Pour ces fiches, l’expertise humaine est requise : non pas pour la reconnaissance de caractères, mais pour interpréter et décider quelles informations conserver. 

Même avec des mises en page non standard, des champs inattendus peuvent être complétés manuellement.

Quatre enseignements clés

  • La structure prime
    Les fiches conformes à la mise en page prescrite ont été reconnues correctement avec un minimum de corrections. Les annotations manuscrites et écarts restent un défi, mais sont fréquents dans les fonds anciens et doivent être pris en compte dans le contrôle qualité.

  • L’ergonomie fait la différence
    L’interface de contrôle intégrée a évité aux membres de l’équipe les allers-retours incessants entre le fichier Excel et les scans : un gain de confort et de temps notable par rapport aux contrôles qualité conventionnels.

  • L’IA est un processus, pas un produit
    « Nous savons désormais ce à quoi nous pouvons raisonnablement nous attendre – et où le jugement professionnel reste indispensable », résume la cheffe de projet. L’automatisation prend en charge les tâches répétitives et aide à moderniser les workflows archivistiques,permettant au travail manuel de se concentrer sur les tâches d'expertise.

  • Gain de temps significatif malgré les erreurs
    Des erreurs sont survenues lors du prétraitement par l’IA, qui se seraient également produites dans un workflow manuel. Cependant, la nature des erreurs est plus limitée et moins variée. De plus, le gain de temps grâce au traitement automatisé est imbattable. Le taux d’erreur peut ainsi être encore réduit lors du contrôle qualité ultérieur, avec un investissement en temps nettement moindre.

Le résultat

  • Le fichier Excel au format cible est disponible.
  • Les données peuvent être utilisées en toute confiance car la qualité professionnelle s’est nettement améliorée.
  • L’équipe a acquis une compréhension pratique de l’interaction entre l’IA et l’expertise archivistique.

Les avantages – en quelques semaines

  • Potentiel de recherche
    Les registres analogiques deviennent une base de données consultable numériquement.
  • Gain de qualité
    Les entrées incorrectes ou obsolètes peuvent être corrigées directement.
  • Développement des compétences
    Le personnel gagne en routine dans l’articulation entre IA et pratiques archivistiques.

Conclusion

Le pilote montre clairement : L’IA excelle lorsqu’elle prend en charge les tâches répétitives et libère du temps pour le travail professionnel. À partir de 1 548 fiches d’indexation, des jeux de données consultables ont été produits en quelques semaines – sans prétendre remplacer l’expertise humaine, mais pour la renforcer. Pour la direction du projet, c’est une avancée vers une archive moderne et numérisée, qui rend utilisables archivistiquement les possibilités actuelles de traitement des données. 

Comment démarrer ?

Notre échange "État des lieux & objectifs" de 30 minutes vous apporte de la clarté

  • Analyser la situation de départ – Quels fonds et instruments de recherche analogiques sont disponibles ?

  • Prioriser les objectifs – Quelles améliorations des workflows votre équipe recherche-t-elle ?

  • Évaluer le potentiel – Où les processus assistés par IA peuvent-ils apporter un soutien concret ?

Résultat : Une vision claire de votre situation et une première évaluation réaliste : qu’est-il possible de faire ? Quelles prochaines étapes – par exemple un atelier approfondi ou un projet pilote – valent la peine ?