10 000 fiches de la Seconde Guerre mondiale rendues consultables
Ce projet d’innovation a rendu consultable une sélection de 10 000 fiches issues des fonds des Archives fédérales suisses, réduisant le temps de repérage de plusieurs mois à quelques minutes.

Résultats du projet
- 10 000 dossiers de prisonniers de guerre ont été numérisés, et les champs clés ont été extraits grâce à l’IA en données structurées, permettant une recherche par nom, date de naissance et lieu de naissance.
- Le personnel des archives peut désormais interroger l’ensemble de la collection en quelques minutes, l’accès pour les chercheuses et chercheurs pouvant être prévu dans une phase ultérieure.
- L’interface de recherche relie chaque résultat au scan numérisé d’origine, afin de préserver le contexte historique.
Le problème : des fonds préservés, une recherche limitée
De nombreux fonds d’archives existent encore sous forme de fiches, de lettres et de registres papier. Ils sont soigneusement conservés, mais ne peuvent être consultés que pièce par pièce. Il était donc difficile de mener des recherches à l’échelle d’une collection entière.
C’était le cas aux Archives fédérales suisses, qui conservaient une vaste collection de fiches de prisonniers de guerre documentant le destin des prisonniers, avec des informations historiques essentielles pour les familles ainsi que pour les historiennes et historiens, comme les noms, dates, lieux, camps et déplacements.
Au début du projet, ces fiches n’étaient accessibles que sur place, en salle de lecture, et les chercheuses et chercheurs devaient les examiner fiche par fiche, un processus exigeant et chronophage.
Le défi de l'innovation
Compte tenu de la valeur historique de la collection et de l’inefficacité d’une recherche fiche par fiche, les Archives fédérales suisses ont lancé un défi d’innovation. L’objectif était d’identifier une solution capable de :
- convertir chaque fiche en données structurées et lisibles par machine, consultables à l’échelle de la collection par des ordinateurs et des bases de données,
- permettre au personnel des archives d’interroger et de retrouver des dossiers dans l’ensemble de la collection, en remplacement d’une recherche manuelle fiche par fiche,
- relier chaque résultat de recherche au scan numérisé d’origine afin de préserver le contexte historique.
La solution : rendre la collection consultable grâce à l’IA, tout en préservant le contexte historique
En 2023, l’équipe Archipanion a mis en place une solution pilote utilisant l’Intelligence artificielle (IA) pour transformer cette collection en une ressource historique consultable.
Cette démarche reposait sur trois étapes clés :
- OCR : des outils de reconnaissance optique de caractères (OCR) (p.ex. Google Vision et Tesseract OCR) ont été appliqués à chaque fiche numérisée afin de convertir le texte imprimé ou manuscrit en données lisibles par machine.
- Modèles de langage (LLM) : des LLM (p.ex. GPT-4 et Llama 2) ont ensuite été utilisés pour analyser le texte et le transformer en jeux de données structurés. Les modèles étaient guidés pour extraire des champs précis de chaque fiche, comme le prénom, le nom, la date de naissance et le lieu de naissance.
- Interface de consultation : les données extraites ont été rendues consultables via une interface web conçue sur mesure. Les données structurées sont également disponibles à l’export (CSV/Excel) pour une intégration dans des systèmes d’information archivistique (SIA) et des bases de données de recherche.

Capture d’écran de l’interface de recherche conçue sur mesure. Chaque résultat renvoie au scan numérisé d’origine, afin de préserver le contexte historique.
Résultats et bénéfices
Une fois le processus en trois étapes mis en place, l’équipe a mené un projet pilote sur 10 000 fiches (le fonds complet en compte 500 000). Les résultats :
- Gains d’efficacité pour les workflows archivistiques : le workflow assisté par l’IA a permis la numérisation et la description assistée par l’IA de 10 000 fiches dans un délai très court. Sans IA, une saisie de données à cette échelle aurait pris des mois, voire des années.
- Collection consultable et plus exploitable : l’interface sur mesure a permis une recherche à grande échelle. Les chercheuses et chercheurs peuvent interroger les 10 000 dossiers afin d’identifier des motifs, tendances et liens entre personnes, lieux et dates. Archipanion a également fourni les données structurées en CSV/Excel pour intégration dans d’autres bases de recherche, facilitant les recoupements avec d’autres documents.
Enseignements et prochaines étapes
Ce partenariat a réuni l’IA et l’expertise archivistique. Les connaissances des archivistes ont été déterminantes à de nombreuses étapes, notamment pour définir quels points de données capturer et pour contrôler la qualité des résultats.
La collaboration a aussi permis à l’équipe Archipanion d’itérer au fil du projet, guidée par les retours des archivistes. En parallèle, le personnel des Archives fédérales suisses a gagné en confiance dans l’expérimentation de technologies d’IA et a développé une compréhension claire de ce que ces outils peuvent accomplir.
Depuis la fin de ces travaux, l’IA a considérablement progressé. Les LLM multimodaux modernes peuvent désormais traiter des documents numérisés de bout en bout, sans étape OCR séparée. Cette évolution simplifie encore le workflow, réduit la complexité et améliore, dans de nombreux cas, la précision. Cette approche peut désormais s’appliquer à des fonds très divers, les rendant nettement plus exploitables et accessibles pour la recherche, tout en révélant une richesse d’histoires qui attendent encore d’être racontées.