Pour comprendre, affiner voire étendre les résultats d'une recherche en ligne (ou l'absence de résultats), encore faut-il savoir vaguement dans quoi on cherche (en plus du "comment cherche-t-on)...
- Avec les moteurs de recherche Internet, outre la question des algorithmes, on se pose rarement la question du vivier de données. Ou pas assez, en se contentant souvent de ce qu'on trouve en premier ;
- Dans le cas de FranceArchives, portail qui permet d'interroger des inventaires des services d'archives en France, on peut avoir des débuts de réponse. La mise à disposition en open data du zip des inventaires permet de prendre connaissance des données qu'on interroge quand on utilise FranceArchives.
A l'origine des visualisations qui suivent, il y a un concours de circonstances en l'espace d'un mois : des réflexions entendues lors de la journée d'étude "des archives et des mots-clés", des échanges sur la (non-)documentation en terme de qualité et de quantité sur ce que nous (archivistes) mettons en ligne, la conception d'une formation sur les archives et inventaires en ligne, et enfin la mise en ligne en open data d'une version actualisée en novembre 2023 des inventaires présents dans FranceArchives.
Le fichier en open data est un énorme zip d'1,5 giga de plus de 84 000 de fichiers XML EAD. Seules les métadonnées de ces fichiers XML sont utilisées ici, pas le contenu des fichiers.
Quiconque utilise FranceArchives l'aura remarqué : certains monopolisent un peu les résultats de recherche, en particulier les Archives nationales qui ont (plein de) réponses à tout. Et pour cause : elles constituent 35% des inventaires de la plateforme, tandis que les inventaires cumulés des archives départementales représentent 49% des données de FranceArchives.
Les 20 plus gros fournisseurs d'inventaires (plus de 1000 inventaires pour chacun) représentent 75% des données de la plateforme.
On l'a vu plus haut, les services d'archives départementales (AD) représentent légèrement moins de la moitié des inventaires présents dans FranceArchives. Mais la répartition géographique est très disparate : 74 services d'AD fournissent des inventaires, avec de très gros contributeurs (17 services avec plus de 1000 inventaires ; voir aussi ci-dessus), de tout petits contributeurs, et des absents non négligeables.
[Pense-bête : pour obtenir la liste des fichiers d'un répertoire, ce qui a été fait ici avec le répertoire AD et ses sous-répertoires, le plus simple (pour ne pas faire crasher l'ordinateur) reste l'invite de commande (cmd sous Windows), avec la commande : ...\AD>dir /b /s | sort > files.txt ]
Un gros tiers des noms de fichiers XML sont signifiants, avec mention de cotes ou de séries du cadre de classement des Archives départementales. Qui dit cadre de classement (en gros archives antérieures à la seconde moitié du XXe siècle), dit thématique, et réponse partielle à la question : quels domaines et sujets concernent les inventaires mis en ligne ?
Réponse très partielle, voire tendances plutôt car je n'ai pu catégoriser que 15 906 inventaires, en identifiant uniquement les séries (les sous-séries étant parfois "maison")... 27 000 inventaires ont été laissé de côté : les noms de fichiers avec des numéros incrémentés automatiquement (ce qui exclut les très gros fournisseurs que sont les AD de la Côte-d'Or, de l'Essonne, du Rhône ou encore de la Haute-Savoie), mais aussi la plupart des versements d'archives contemporaines (cotation en W non signifiante).
Autre limite (qui apparaît ci-dessous) : les inventaires les plus nombreux sont ceux des séries E (état civil, notaires, famille), U (justice) et E dépôt (archives départementales déposées), soit les ensembles susceptibles d'avoir une infinité de sous-séries, et donc d'inventaires. Sans oublier qu'un inventaire peut avoir 1000 unités de description (cote, voire pièces pour certains)... ou très peu !
Avec toutes ces réserves, la visualisation ci-dessous fait tout de même apparaître des tendances (à filtrer par groupe pour plus de lisibilité : toutes périodes, ancien régime, XIXe et XXe siècle) :
- la forte présence des inventaires d'archives privées et de documents figurés (j'exclus la série E, trop fourre-tout et mastodonte avec les notaires et l'état civil) ;
- les fonds d'archives communales déposées en archives départementales ne sont pas en reste ;
- la série M (administration générale XIXe XXe siècle) se défend bien à côté des fonds Justice (série U) et Domaines et Enregistrement (série Q) ;
- moi qui cherchait un peu vainement des inventaires de série V il y a quelques années, ils existent !
Conclusion : quand on cherche quelque chose, et d'autant plus quand on trouve peu ou pas, toujours garder à l'esprit que :
- les données sont vivantes ;
- les résultats d'une recherche ne sont qu'une photographie figée, à un instant précis, selon la disponibilité des ressources à cet instant-là.
Sans compter les écueils liés à la façon dont les questions sont posées (vocabulaire trop précis / trop vague / anachronique) et parfois aux paramétrages techniques des moteurs de recherche eux-mêmes.
Liens
- Jeux de données en open data : FranceArchives.fr - Inventaires des archives françaises (novembre 2023) ; version antérieure (janvier 2021) ; liste des inventaires des AD retravaillée (CSV) (Maïwenn Bourdic, décembre 2023)
- Khartis, outil cartographique de Sciences Po - atelier de cartographie
- Flourish Studio
Comments est propulsé par CComment