Contribution numérique : cultures et savoirs

Archives nationales participatives

Archives nationales participatives

Projets participatifs autour d’archives numérisées

Romain Le Gendre

Romain Le Gendre, « Archives nationales participatives », dans Marta Severo, Roch Delannay (dir.), Contribution numérique : cultures et savoirs (édition augmentée), Les Ateliers de [sens public], Montréal, 2024, isbn : 978-2-924925-29-4, http://ateliers.sens-public.org/contribution-numerique/chapitre9.html.
version 0, 15/06/2024
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Introduction

Depuis une vingtaine d’années, la numérisation massive de documents originaux, le développement d’internet et sa démocratisation, ainsi qu’un attrait pour l’histoire personnelle et familiale ont encouragé les services d’archives à proposer sur leurs sites internet des fonctionnalités collaboratives d’indexation. L’objectif recherché est de permettre des recherches plus rapides dans les archives mises en ligne et d’offrir une granularité plus fine dans leur description. En 2017, les Archives nationales ont mis en place un site internet Archives nationales participatives pour communiquer sur leurs projets collaboratifs et attirer de nouveaux bénévoles.

Observatoire : Archives nationales participatives

La plateforme Archives nationales participatives rend compte des projets collaboratifs de transcriptions, d’annotations et d’indexations en lien avec les archives nationales. Créées pendant la Révolution française, les Archives nationales conservent les archives publiques des différents régimes politiques qui se sont succédé, du VIIe siècle jusqu’à nos jours, ainsi que des archives privées et les minutes des notaires parisiens. La plateforme fait appel aux internautes pour participer à l’enrichissement de ses inventaires. Les projets participatifs visent à indexer et dépouiller des corpus de documents d’archives, à un niveau très précis, difficilement atteignable par les archivistes au regard du volume des fonds d’archives conservés. Les contributions sont intégrées aux inventaires. Elles sont interrogeables via le moteur de recherche, les contenus collaboratifs bénéficient à tous en permettant d’améliorer les résultats des recherches.

Voir la fiche complète sur le site de l’observatoire.

En cinq ans, cet outil a permis de mobiliser des bénévoles autour d’une dizaine de projets. La stratégie 2021-2025 des Archives nationales a inscrit dans son axe 1 consacré aux publics un objectif intitulé « Amplifier les démarches participatives ». Le souhait est de développer une plateforme unique et à l’échelle pour faire des usagers des archives des acteurs et des contributeurs.

Les pratiques collaboratives dans les services d’archives

Des pratiques collaboratives existent dans le domaine des archives depuis longtemps. L’engouement pour les recherches généalogiques, dans les années 1980, a conduit à la création d’associations généalogiques qui se sont notamment donné comme tâche de dresser des relevés nominatifs des actes conservés dans les registres paroissiaux et d’état civil. Ces relevés, destinés en priorité aux adhérents de l’association généalogique, ont pu également être donnés et mis à disposition dans les services d’archives départementales ou municipales, souvent dans une logique d’entente cordiale.

Au début des années 2000, les services d’archives ont démarré, avec l’appui du ministère de la Culture, la numérisation de l’état civil. Sa mise en ligne sur internet a suivi quelques années plus tard. Mais comme cette numérisation avait souvent été réalisée à partir de bobines de microfilms, il n’était pas rare de se retrouver face à des lots de plus de 500 images, voire jusqu’à 1000 images, couvrant plusieurs décennies et différents types d’actes. Dans ces conditions la recherche d’un acte précis pouvait s’avérer longue, surtout à une époque où le haut débit n’était pas généralisé. Certains sites d’Archives départementales ont donc fait appel à leurs usagers pour poser des signets afin de signaler, par exemple, ici le début de l’année 1812, ici le début des sépultures de 1745, ici les mariages de 1680, etc.

Figure 1. Archives départementales de la Corrèze : images des naissances, mariages et décès de la ville d’Ussel, 1843-1848 (1273 images, avec repérage par année et type d’acte)

Ces initiatives rencontrant un public heureux d’aider la communauté, l’idée a émergé de le solliciter pour relever d’autres informations : ainsi, lors d’un colloque organisé par l’Association des archivistes français en 2012, la responsable des Archives municipales d’Orléans, dans une présentation intitulée « Un pari pour l’avenir ? Le travail collaboratif avec les usagers des Archives municipales d’Orléans », évoquait le projet d’indexation proposé sur leur site internet et en faisait un premier bilan.

Les commémorations du centenaire de la Première Guerre mondiale ont accéléré les choses : les Archives de France avaient pour objectif de proposer un accès unifié à tous les registres matricules militaires des soldats ayant combattu lors de ce conflit. Dans le cadre de ce projet Grand mémorial, chaque service d’archives départementales était donc vivement encouragé à faire indexer nominativement les fiches matricules des soldats des classes 1887 à 1921. Certains services ont alors mis à contribution leurs usagers en ligne, plutôt que de recourir à un prestataire privé pour réaliser ce travail. Pour encourager la participation, et créer une émulation entre contributeurs, voire une compétition, plusieurs prestataires de sites internet d’archives avaient d’ailleurs développé des fonctionnalités de classement type « podium » ou « badge ».

Figure 2. Portail Grand mémorial

La démarche du ministère de la Défense avec Mémoire des hommes était peu ou prou similaire : le défi proposé – et réussi grâce à quelques 2500 contributeurs ! – était de retranscrire, avant le 11 novembre 2018, les informations présentes sur les quelques 1,4 million de fiches de morts pour la FranceVoir le bilan du « défi collaboratif » sur Mémoire des hommes et 1 Jour - 1 Poilu.↩︎.

En parallèle, des sites de généalogie ont mobilisé leurs usagers pour qu’ils numérisent dans les salles de lecture des documents d’archives qui ne l’avaient pas encore été par les services d’archives départementales et municipales. Une fois ces ressources mises à disposition sur leur plateforme, un appel est fait pour indexer nominativement ces documents, dans l’objectif de faciliter les recherches de la communauté généalogiste (voir par exemple le projet Au-delà de l’état civil).

Archives nationales participatives

Les Archives nationales, créées en 1790, conservent les archives des organes centraux de l’État français (exception faite des fonds du ministère des Armées, du ministère des Finances et de celui des Affaires étrangères). Les fonds conservés représentent un total de plus de 380 km linéaires d’archives permettant de documenter l’histoire de France depuis le VIIe siècle jusqu’à nos jours. Du fait de la longue tradition de centralisation administrative française, les Archives nationales conservent des documents qui intéressent tout le territoire, et donc un public large et varié qui ne peut pas forcément se déplacer facilement à Paris ou à Pierrefitte. La demande d’accéder à des fonds d’archives numérisés est donc importante.

En 2016, un rapport interne intitulé « Pour des Archives nationales participatives » avait dressé le constat d’une demande du grand public pour des instruments de recherche à granularité fine, voire très fine : le public veut, en un clic, des noms propres, des adresses, des métiers, des dates précises, parce que son temps est précieux, ou simplement parce que certains publics ne sont pas engagés dans une démarche de recherche académique, forcément plus longue et systématique, nécessitant des prérequis.

Figure 3. Blog « Archives nationales participatives »

L’année suivante, un portail Archives nationales participatives avait vu le jour sous la forme d’un blog Wordpress administré par certains archivistes chefs de projets participatifs. Cet outil avait alors pour but de centraliser les projets des Archives nationales, de faire appel aux internautes pour participer à l’enrichissement des inventaires, de mettre en avant le travail des bénévoles et leurs découvertes, et de valoriser les usages des contenus.

L’architecture complexe du système d’information des Archives nationales et l’absence de moyens financiers dédiés aux projets participatifs ont cependant contraint leurs responsables scientifiques et limité le choix des outils proposé aux usagers : ceux-ci prenaient connaissance des projets sur le portail, choisissaient une ou plusieurs cotes d’archives à indexer ou retranscrire, visualisaient les images numérisées via la visionneuse de la Salle des inventaires virtuelle, et remplissaient enfin le formulaire Framaform configuré pour l’occasion par les archivistes. Cette absence d’un outil ergonomique unique et la nécessité de passer d’un écran à l’autre ont donc pu freiner des bonnes volontés. Malgré tout, cinq projets ont pu être menés à bien et ont trouvé leur public. Certains bénévoles étaient particulièrement réactifs et soucieux de bien faire. Même s’il n’y a pas eu d’étude sur le « profil » de ces contributeurs, on a souvent constaté que les plus investis étaient des retraités, notamment de l’Éducation nationale. Ce sont ces contributeurs, parfois moins d’une dizaine par projet, qui ont dans les faits réalisé 80 % du travail de transcription ou d’indexation.

Le seul projet ayant fait l’objet de développements spécifiques (grâce à des financements extérieurs) est le projet Testaments de Poilus qui visait à produire une édition électronique d’un millier de testaments de poilus de la Première Guerre mondiale retrouvés dans les fonds du Minutier central des notaires de Paris et des Archives départementales des Yvelines et du Val-d’Oise.

Observatoire : Testaments de Poilus

Le projet Testaments de Poilus vise à produire une édition électronique d’un millier de testaments des Poilus de la Première Guerre mondiale retrouvés dans les fonds des Archives nationales et des Archives Départementales des Yvelines.  Il vise à rendre ces testaments accessibles au grand public et aux chercheurs, c’est aussi en permettre la lecture au plus grand nombre. Les internautes sont invités à transcrire le texte des testaments en déchiffrant les dernières volontés des Poilus. Afin que ces transcriptions soient lisibles en ligne et réutilisables par les chercheurs amateurs et professionnels, nous demandons aux internautes de baliser leur transcription avec un encodage informatique. Cela permet de proposer aux lecteurs deux versions du texte : l’une qui respecte l’orthographe et la mise en page d’origine, l’autre qui en propose une version corrigée, adaptée à la lecture sur écran et enrichie d’informations spécifiques (dates, lieux, structure du texte). Enfin, les connaissances des bénévoles sont sollicitées pour enrichir les notices des testateurs, des régiments et des lieux de bataille. Collecter et rassembler ces informations fait vivre la mémoire de soldats morts pour la France dans le cadre des commémorations du Centenaire de la Première guerre mondiale.

Voir la fiche complète sur le site de l’observatoire.

Figure 4. Projet « Testaments de poilus », plateforme de transcription collaborative

Le projet s’est appuyé sur deux plateformes, l’une pour la transcription des documents et leur encodage en XML-TEI, l’autre pour présenter leur édition et faire des recherches dans ce corpus. Un colloque de clôture, les 24 et 25 novembre 2022, a permis de faire un bilan du projet et a notamment donné la parole aux contributeurs, dont les motivations personnelles étaient variées.

Colloque de clôture du projet Testaments de poilus

Crédits : Archives nationales de France

Source

Le projet GIROPHARES

Figure 5. Page d’accueil de la plateforme GIROPHARES

À l’occasion de l’élaboration de ses axes stratégiques pour 2021-2025, l’institution a fait le constat du manque d’un outil ergonomique et répondant aux besoins des archives, en comparaison du formidable vivier de contributeurs constitué par ses usagers et des nombreuses possibilités de projets participatifs pouvant être mis en œuvre. L’objectif était donc de développer une plateforme collaborative unique, afin que des internautes puissent participer à la description en ligne de tous types de documents d’archives conservés aux Archives nationales. L’obtention d’une aide au titre de l’axe « Innovation et transformation numérique », thématique « Développer l’usage de la donnée au service de l’action publique » du plan France relance a permis de développer, à partir de 2022, une première version de cette plateforme. Elle a ouvert au public en mai 2023, et a été baptisée GIROPHARES pour « Génération d’Instruments de Recherche et d’Outils Participatifs Historiques aux Archives par Recueil d’Éléments Structurés ».

La plateforme comporte deux éléments essentiels :

Cinq projets participatifs sont proposés à son démarrage :

On s’est interrogés, lors des développements de l’outil, sur les modalités de contrôle des contributions : fallait-il prévoir une relecture systématique par l’archiviste ? Ou une double lecture, qui aurait mis en évidence les retranscriptions non concordantes ? Devant le nombre d’images à indexer pour la plupart des projets, le choix a été fait de faire confiance aux contributeurs. C’est l’archiviste qui, une fois les contributions recueillies, sera libre de contrôler ou pas les contributions avant de les publier dans la Salle de lecture virtuelle des Archives nationales.

La question s’est aussi posée de la reconnaissance publique éventuelle du travail des contributeurs : certains projets participatifs mettent ainsi en place des systèmes de classement public des meilleurs contributeurs, de podium, ou encore de badges. Il a semblé plus intéressant de se concentrer sur la mise en place d’outils de discussions et d’échanges, pour tenter de fédérer et de créer du lien entre passionnés autour des projets participatifs proposés, et le sujet de la « gamification » a été mis de côté. Ces sujets reviennent toutefois régulièrement lors des discussions entre archivistes ou à l’occasion de présentations de la plateforme, et il n’est pas dit que des choix différents soient faits dans l’avenir.

Mais l’innovation la plus attendue serait que la plateforme puisse faire appel, dans des versions ultérieures, à des algorithmes d’intelligence artificielle : pour transcrire automatiquement des documents imprimés (OCROCR : Optical Character Recognition, soit, en français, la reconnaissance optique de caractères ou océrisation.↩︎) ou manuscrits (HTRHTR : Handwritten Texte Recognition, ou reconnaissance de l’écriture manuscrite.↩︎), ou encore identifier les entités nommées comme les personnes ou les lieux (NERNER : Named-entity recognition ou reconnaissance d’entités nommées.↩︎). Le rôle du contributeur pourrait alors changer : il deviendrait alors correcteur, « perfectionneur » chargé de relire les lectures ou les identifications créées par l’intelligence artificielle.

Vis-à-vis des publics des Archives nationales, l’ambition de cette plateforme participative est d’être un vrai outil de démocratisation culturelle des contenus des archives. Grâce aux projets de transcription ou d’indexation, ceux-ci deviennent plus facilement accessibles par des requêtes simples, et ils peuvent ainsi être plus facilement réutilisés. GIROPHARES favorisera ainsi, on l’espère, une interaction aisée entre l’institution, ses professionnels et les usagers qui souhaitent devenir acteurs de la connaissance de ce patrimoine archivistique encore trop méconnu.

Conclusion

Le cliché de l’archiviste, seul dans sa tour d’ivoire, qui inventorie des documents anciens pour en permettre la communication à une poignée d’érudits, est révolu. D’abord parce que l’inflation de la production documentaire a fait des archivistes les responsables de volumes bien plus conséquents et les animateurs d’équipes plus importantes qu’autrefois ; ensuite parce que la consultation des archives est une pratique culturelle populaire. La soif de généalogie, d’histoire familiale et locale est étanchée grâce à la mise en ligne, sur internet, de centaines de millions de documents. Cette rencontre d’un public motivé et d’une documentation numérique considérable a suscité le développement d’entreprises de crowdsourcing permise par la pratique des documents d’archives ainsi que par les connaissances des usagers. Le rôle de l’archiviste est de rendre possible ce travail sur les sources, de l’encadrer (plus ou moins, selon la nature des projets), et de le faire connaître (par la médiation numérique). Les projets participatifs seront couronnés de succès si l’on réussit à créer un réseau solide, une communauté virtuelle (notamment en s’appuyant sur des communautés réelles, associations de généalogie ou d’amis des archives) et à donner de la reconnaissance au travail de ces passionnés.

Contenus additionnels

Observatoire : Archives nationales participatives

La plateforme Archives nationales participatives rend compte des projets collaboratifs de transcriptions, d’annotations et d’indexations en lien avec les archives nationales. Créées pendant la Révolution française, les Archives nationales conservent les archives publiques des différents régimes politiques qui se sont succédé, du VIIe siècle jusqu’à nos jours, ainsi que des archives privées et les minutes des notaires parisiens. La plateforme fait appel aux internautes pour participer à l’enrichissement de ses inventaires. Les projets participatifs visent à indexer et dépouiller des corpus de documents d’archives, à un niveau très précis, difficilement atteignable par les archivistes au regard du volume des fonds d’archives conservés. Les contributions sont intégrées aux inventaires. Elles sont interrogeables via le moteur de recherche, les contenus collaboratifs bénéficient à tous en permettant d’améliorer les résultats des recherches.

Voir la fiche complète sur le site de l’observatoire.

Carnet de recherche des Archives nationales participatives

Accéder au carnet de recherche des Archives nationales participatives.

Crédits : Archives nationales participatives

Source (archive)

Observatoire : Testaments de Poilus

Le projet Testaments de Poilus vise à produire une édition électronique d’un millier de testaments des Poilus de la Première Guerre mondiale retrouvés dans les fonds des Archives nationales et des Archives Départementales des Yvelines.  Il vise à rendre ces testaments accessibles au grand public et aux chercheurs, c’est aussi en permettre la lecture au plus grand nombre. Les internautes sont invités à transcrire le texte des testaments en déchiffrant les dernières volontés des Poilus. Afin que ces transcriptions soient lisibles en ligne et réutilisables par les chercheurs amateurs et professionnels, nous demandons aux internautes de baliser leur transcription avec un encodage informatique. Cela permet de proposer aux lecteurs deux versions du texte : l’une qui respecte l’orthographe et la mise en page d’origine, l’autre qui en propose une version corrigée, adaptée à la lecture sur écran et enrichie d’informations spécifiques (dates, lieux, structure du texte). Enfin, les connaissances des bénévoles sont sollicitées pour enrichir les notices des testateurs, des régiments et des lieux de bataille. Collecter et rassembler ces informations fait vivre la mémoire de soldats morts pour la France dans le cadre des commémorations du Centenaire de la Première guerre mondiale.

Voir la fiche complète sur le site de l’observatoire.

Site du projet Testaments de Poilus

Accéder au site du projet de transcription collaborative Testaments de Poilus.

Crédits : Archives nationales participatives

Source (archive)

Site du projet GIROPHARES

Accéder au site du projet GIROPHARES.

Crédits : Labex Les passés dans le présent

Source (archive)

Notes prises lors du forum

Notes 5. Les projets participatifs autour d’archives numérisées : l’exemple des Archives nationales

Romain Le Gendre (conservateur du patrimoine des Archives nationales)

Romain Le Gendre présente des projets participatifs autour des archives nationales numérisées.

Il commence par rappeler que les pratiques collaboratives dans les archives datent des années 1970, via l’engouement pour la généalogie d’associations qui informatisaient des archives papier, qu’elles mettaient ensuite en ligne ou bien qu’elles réservaient à leurs adhérents. Le phénomène de numérisation se poursuit, s’outille de techniques et de sites dédiés, avant que les usagers soient mis à contribution. Les institutions, comme les Archives d’Orléans, mettent en place des projets collaboratifs d’indexation, avec des systèmes de récompense pour stimuler la contribution. Lors des commémorations du centenaire de la Première Guerre mondiale, de nombreuses numérisations de fiches ont été entreprises, via des prestataires privés ou des projets collaboratifs (comme Mémoires des hommes et le défi « 1 Jour - 1 Poilu » qui rencontre un grand succès).

L’intervenant présente ensuite les projets des Archives nationales qui, malgré la longue tradition de la centralisation administrative de la France, s’ouvrent à des projets participatifs. Un site est mis en ligne pour mettre en avant les différents projets et attirer des contributeurs. Mais il y a eu un faible nombre de contributeurs (80 % du travail est fait par moins de 5 personnes). L’objectif est donc d’amplifier ces démarches sur cinq projets pilotes à partir de fin 2022 en : proposant un seul outil d’indexation et de transcription, diffusant les projets sur les réseaux sociaux, effectuant une partie du travail par de l’intelligence artificielle et intégrant les contributeurs de manière plus aisée.

Des questions sur la qualité des données, l’appel à des associations ou au fait que le travail demandé soit bénévole ont été soulevées. L’intervenant a précisé que les données étaient toujours de bonne qualité, qu’elles visaient moins les associations que leurs membres actifs et que les bénévoles deviennent en réalité des archivistes, et eux (l’institution) sont là surtout pour paramétrer la base de données et faciliter l’accès à l’information.

Notes 8. Recital

Françoise Rubellin (professeure, université de Nantes)

Françoise Rubellin commence par rappeler qu’au XVIIIe siècle, il n’existe que cinq théâtres publics à Paris. La comédie italienne, dont les acteurs ne sont que des Italiens, échappe à certaines réglementations royales. Les registres comptables de cette comédie (sur une période d’un siècle) ont été conservés. 64 registres de 300 pages chacun environ, avec des comptes quotidiens, mensuels, etc.

Elle expose ensuite les difficultés de la collecte de données du projet Recital : écritures manuscrites difficiles à décrypter, langues françaises et italiennes (y compris des termes vénitiens), systèmes monétaires complexes… On y apprend le titre des pièces jouées, les impôts payés, les acteurs embauchés, les petits métiers, les places vendues, etc. Le travail conduit également à des mystères à résoudre. L’intervenante donne l’exemple de l’« Escomba », payé un sou par jour, dont la communauté des contributeurs finira par déterminer (en étudiant les registres de police) qu’il s’agit de la concierge.

Quels sont les types de contributions possibles ? La plateforme permet, pour chaque page, de déterminer le type de contenu. Puis, chaque ligne peut être identifiée et transcrite. Des bulles d’aide sont présentes pour aider les contributeurs. Une phase de vérification permet, lorsque des transcriptions sont conflictuelles, de trancher.

Comment faire pour constituer la communauté ? Il faut impliquer des étudiants de master (pas forcement travaillant sur ce sujet), faire venir des passionnés de l’histoire et du théâtre, organiser des transcribathons, participer aux Nuits Blanches de chercheurs ou aux Fêtes de la Science. Les personnes découvrent la recherche collaborative et rencontrent les humains derrière la machine. Les statistiques montrent l’impact important des événements ponctuels et des stages sur le nombre de contributions. Concernant le projet en lui-même un million de transcriptions ont été réalisées.

En ce qui concerne la communication avec la communauté, il y avait eu la publication d’une newsletter pendant un temps (des nouvelles du projet, des anecdotes), mais qui s’est arrêtée par manque de personnel. Un forum est mis à disposition pour que des participants posent des questions, mais là encore il est parfois difficile d’être réactif et d’apporter assez de réponses.

Enfin, quelques pistes pour stimuler les contributions et la communauté : organiser des enquêtes guidées, ludiques, pour intéresser la communauté ; un wiki est en cours de création.