FranceArchives, portail des archives en France, permet d'accéder à des ressources éditoriales et professionnelles et aux données (inventaires) des services d'archives partenaires, par le biais d'un moteur de recherche globale. Les données, reliés à différents référentiels (Agent, Lieux, Thèmes) sont depuis peu interrogeables via un requêteur SPARQL.

Au début de l'année 2021, un identifiant "FranceArchives Agent" (P9371) a été créé sur Wikidata, afin de prendre en compte le nouvel identifiant unique créé sur FranceArchives pour le référentiel "Personnes et institutions". Quelques milliers d'individus ont été enrichis de cet identifiant à cette période-là à partir d'une première liste fournie par FranceArchives (moyen aussi de faire fructifier une partie de mon propre travail d'alignement faits aux Archives nationales pour les préfets et les architectes diocésains).

Wikidata, identifiant FranceArchives Agent

Aujourd'hui, les pages FranceArchives Agent sont assez bien renseignées, avec une description, des liens Wikidata, BNF, voire des liens de parentés. Ces renseignements ne sont faits que dans un sens (FranceArchives vers Wikidata) alors que l'inverse est également souhaitable et bénéfique dans un environnement de web sémantique.

Aperçu de la page Agent Vincent Auriol sur FranceArchives

À l'été 2023, je me suis donc attaquée à une grosse mise à jour de cet identifiant FranceArchives Agent (FAA pour les intimes), avec près de 12 000 ajouts sur Wikidata. Retour sur cette opération, l'utilité de ces données liées, le tout accompagné de quelques requêtes SPARQL de Wikidata, désormais possibles, et qui permettent de visualiser "les gens (indexés) dans les archives".

 

Sommaire :

1. Mode d'emploi rapide

2. Mais à quoi sert donc tout ceci ?

- Lier les données

- Mais qui sont les gens (indexés) dans les archives françaises ?" (datavisualisations)

 

Mode d'emploi rapide

 

Ces centaines de milliers d'identifiants n'ont bien sûr pas été injectés manuellement dans Wikidata. Faute de mieux dans l'immédiat (mieux qui arrivera sans doute !), j'ai d'abord utilisé Webscrapper pour récupérer le contenu des 26 pages d'index alphabétique. Ce plug-in utilisable dans les navigateur web Firefox et Chrome (y compris sur des réseaux informatiques professionnels) permet de récupérer les contenus sériels de pages web, après avoir paramétré un schéma de structure des données. Dans le cas présent, il s'agissait de balayer l'ensemble des pages du référentiel Personnes et institutions (14 pages de A, 32 pages de B, etc.) pour récupérer les libellés "Agent" (écrits, pour les individus, sous la forme Nom, Prénom(s) (année de naissance-année de décès)) et le lien hypertexte vers leur page (lien qui contient l'identifiant unique desdits agents).

 

 

 

Paramétrage Webscrapper pour récupérer les données de l'index alphabétique multi-pages du référentiel Agent (Personnes et institutions) de France Archives

 

Les 26 fichiers (un par lettre) ont ensuite été compilés en un seul projet OpenRefine et rapidement retravaillés pour obtenir un tableur du genre :

Nom, prénom, année de naissance, année de décès, URL FAA, identifiant FAA

 

Données de FranceArchives récupérées via Webscrapper et compilées dans OpenRefine

 

Je me suis concentrée dans l'immédiat sur les individus (le plus gros du référentiel), en excluant les organisations et personnes morales (moins présentes dans Wikidata) et les notaires (parisiens pour l'essentiel, issus du référentiel des Archives nationales, qui sont peu présents sur Wikidata, pour lesquels il y a en partie confusion dans l'encodage des données entre période d'activité et dates d'existence de l'individu ; bref, notaires qui mériteraient un traitement spécifique à part avec les données natives).

La majorité des liens d'identité (réconciliation) avec Wikidata ont été validés en comparant les années de naissance et décès : si, en plus de l'homonymie de l'individu, les années issues de FranceArchives correspondent à celles de Wikidata, c'est le même individu. Cette première étape a permis d'ajouter à Wikidata plusieurs milliers d'identifiants FAA.

Pour améliorer le matching automatique des individus "restants", j'ai aspiré leurs pages HTML (de type https://francearchives.gouv.fr/fr/agent/....) afin d'y récupérer les liens Wikidata qui pouvaient y être insérés. J'ai sans doute utilisé le procédé le plus laborieux et mangeur de mémoire vive (mon ordi a hurlé), mais à défaut de maîtriser autre chose, ça a marché : Httracker pour aspirer environ 3000 pages html pleines de choses inutiles et OpenRefine pour y récupérer une ou deux lignes contenant quelque chose ressemblant à https://www.wikidata.org...
 

Tout ça pour dire que dans l'été, on est passé de 3961 identifiants FAA (ajoutés principalement en 2021 lors de la création de l'identifiant) à... 19 538 en septembre (source : Wikidata Navel Gazer, P9371).

Et ce n'est pas fini puisque... :

  • il n'y a ni organisation, ni notaire,
  • il y a quelques doublons sur FranceArchives
  • et plein d'identifiants à créer (potentiellement avec BNF to Wikidata),
  • sans compter les coquilles à corriger (éléments Wikidata avec 2 identifiants FAA, soit à cause d'une erreur d'alignement, soit à cause d'identifiants à fusionner côté FAA).

Bref, un travail d'alignement est nécessairement long et infini, car les données sont vivantes. Entre l'opération de l'été 2023 et la rédaction de ce billet, chacun continue d'évoluer et enrichir ses données : FranceArchives continue de créer, relier et valider des identifiants Agent (voire à fusionner des doublons, avec heureusement des redirections entre ancien et nouvel identifiant) ; de nouveaux éléments Wikidata sont également créés, enrichis voire également fusionner (avec redirection également).

Les ajouts ponctuels sur Wikidata sont très rapides à faire, donc toute occasion est bonne à prendre pour rajouter un identifiant FranceArchives Agent (commémoration, nécrologie...).

 

Mais à quoi sert donc tout ceci ?

À lier les données (web sémantique)

Récupérer du contenu de Wikidata (et autres) et faire des liens de l'institution vers les référentiels, c'est bien ; relier dans les deux sens, s'enrichir mutuellement (y compris quand on modifie des informations) et s'inscrire réellement dans l'écosystème du web sémantique, c'est encore mieux. Soyons FAIR (play), quand bien même les outils et moyens métiers sont encore rarement à la hauteur des besoins (écriture en "dur" des contenus du web sémantique, difficultés à utiliser des API et faire de la réconciliation sur des réseaux informatiques institutionnels, etc.). Même sans outil métier "web sémantique proof", il est possible de contribuer et d'améliorer la découvrabilité de nos données, en renseignant des liens Wikidata (par exemple dans <bibliography>), données qui pourront être mises à profit lors de l'agrégation des données sur FranceArchives.

Les pages FranceArchives Agent ont la chance d'être a priori (dans l'immédiat du moins) des URI. Reliées à Wikidata, elles pourraient être envisagées comme "notices d'autorités" sur les articles Wikipédia.

 

Notices d'autorité en bas d'un article Wikipédia

 

Le fait que l'identifiant FranceArchives Agent existe sur Wikidata permet d'accéder, depuis la page FranceArchives, à de nombreux autres contenus liés via le plug-in Entity Explosion. En un clic, on peut accéder, depuis la page Agent sur FranceArchives, au dossier numérisé de Légion d'honneur de l'individu, à sa notice dans le catalogue de la BNF, ou encore aux textes sur Wikisource ou à la notice producteur des Archives nationales !

 

Utilisation du plug-in Entity Explosion sur la page FranceArchives Agent "Rosa Bonheur" pour voir les données liées de Wikidata (dont légion d'honneur, portail Agorha, VIAF, etc.)

 

PS : en 2023, on a toujours des refontes de sites web institutionnels qui bazardent des milliers d'identifiants uniques utilisés depuis des (parfois dizaines) années, en ne se souciant pas de leur utilisation et dissémination dans l'écosystème du web, parfois sans aucune réécriture d'url...

 

"Mais qui sont les gens (indexés) dans les archives françaises ?" : interroger et visualiser le référentiel France Archives Agent

 

Même vivantes et inachevées, ces données sont très intéressantes à manipuler et à interroger. Questions non exhaustives et résultats des requêtes SPARQL de Wikidata, à partir des individus ayant un identifiant FranceArchives Agent

Sommaire des requêtes : Liste complète des individus France Archives Agent sur Wikidata - Individus par siècle - Lieux de naissance des individus originaires des Bouches-du-Rhône - Nationalité des individus - Proportion de femmes - Mosaïque de portraits féminins - Professions des individus par genre - Lieux de naissance des femmes - Femmes sans article Wikipédia en français - Individus liés à la Bretagne - Listes de travail Archives nationales - Visualiser l'identifiant FranceArchives Agent via Cat

 

 

  • Liste complète des individus France Archives Agent sur Wikidata : Il y a un paquet d'individus (plus de 19 000), donc la liste complète peut être longue à charger ! "Liste des éléments ayant un identifiant FranceArchives Agent et leurs articles sur les Wikipedia fr ou anglais" (limitation à 1000 résultats par défaut pour plus de rapidité : requête SPQARL de Wikidata)

 

 

 

 

(idéalement il faudrait trier chronologiquement mais je n'ai pas réussi à faire un histogramme trié)

 

 

 

  • Lieux de naissance et décès dans les Bouches-du-Rhône d'individus ayant un identifiant FAA (requête SPARQL)

Pour changer de lieu (département ou commune), remplacer dans la requête la valeur Q3240 par celle de l'élément Wikidata souhaité

Pour avoir la liste, changer le mode d'affichage en "Table" (exemple)

 

 

 

 

Voir aussi la liste des résultats

 

 

 

 

  • Et les femmes dans tout ça ? : répartition des individus de FranceArchives par sexe et genre (requête SPARQL)

Voir aussi le tutoriel "Où sont les femmes ? ou comment genrer nos données patrimoniales

FAA 7 sparql genre FAA

 

  • Portraits (féminins) de famille (requête SPARQL)

Voir aussi la liste totale des femmes ayant un identifiant FAA

Galerie de portraits de femmes ayant un identifiant dans FranceArchives

 

 

Voir aussi la liste des résultats

 

 

 

 

 

 

 

 

 

 

 

 

  • Les Bretons sont partout... y compris dans FranceArchives (requête SPARQL)

 

 

 

 

Quelques listes de travail internes :

 

 

 

wikidata pacVisualiser l'identifiant FranceArchives Agent via Cat

Pac a développé en ligne l'outil Cat, qui permet de proposer pour des requêtes simples de Wikidata une série d'analyses et de visualisations avec une interface grand public (en savoir plus sur Mastodon).

Voici l'accès direct pour visualiser les données rattachées à l'identifiant FranceArchives Agent. En modifiant la propriété appelée via la liste déroulante, on peut visualiser aussi bien le pays de citoyenneté, le sexe ou genre ou encore la profession des éléments en question.

Pour les professions (propriété "occupation"), cela donne une magnifique boule à facettes ! (suivie du top 20 des occurrences les plus représentées).

wikidata pac occupation

wikidata pac occupation

 

 

Pour aller plus loin

 

Mise à jour : ajout de la visualisation via l'outil Cat (02/03/2024)


Comments est propulsé par CComment