Tutoriels - Patrimoine et numérique

#40 - Utiliser les expressions régulières ("regex")

Les expressions régulières ("regex" pour les intimes) est une syntaxe qui permet de décrire et identifier un ensemble de chaîne de caractères possibles. Quand on gère au quotidien des catalogues, inventaires ou bases de données, elles peuvent servir de super "rechercher / remplacer par" très utile pour normaliser et corriger quelques coquilles ou en masse.

Au lieu de rechercher un mot strict (par exemple "chat"), les expressions régulières permettent de chercher des chaînes de caractères (par exemple 4 lettres, ou "c" suivi de 3 lettres, ou "c" + 2 lettres + "t"...), et si besoin de les modifier en mémorisant les valeurs initiales.

Quelques cas d'usages au quotidien quand on travaille sur des milliers de lignes :

traquer le point final (absent ou présent, selon les choix), en fin de ligne / balise
traquer la minuscule qui subsiste en début de champ / balise
chercher l'année ou la date mal écrite (par exemple trois ou cinq chiffres qui se suivent)
repérer des coquilles d'orthographes (les suivi d'un mot sans s final : les ([a-z]{3,})([a-r|t-x]) )
etc.

Voir aussi l'article "Expression régulière" sur Wikipédia

Lire la suite : #40 - Utiliser les expressions régulières ("regex")

Ecrire un commentaire (1 Commentaire)

#39 - Opération "Signatures", ou disséminer des autographes sur Commons, Wikidata et Wikipédia

Voici une action de dissémination de contenus facile, rapide à mettre en oeuvre, et plutôt satisfaisante en terme de résultats (et de statistiques). L'opération "Signatures"¹ vise à numériser et diffuser sur les plateformes Wiki des signatures de personnes plus ou moins VIP croisées dans les fonds d'archives et autres documents patrimoniaux.

Seul·e ou en équipe, le processus est le suivant :

repérage d'une signature ne figurant pas sur l'article Wikipédia ou l'élément Wikidata d'une personne ;
numérisation (un appareil photo de téléphone fait très bien l'affaire), sans oublier de bien les métadonnées basiques (nom de l'individu, date et cote du document) ;
nettoyage rapide de l'image et passage en noir et blanc (ou niveaux de gris) ;
mise en ligne de l'image sur Wikimédia Commons, en pensant à la catégoriser (avec, pourquoi pas, une catégorie dédiée, afin de les recenser et d'avoir des statistiques complètes) ;
rattachement de la signature à l'élément Wikidata de la personne ;
dissémination automatique sur les Wikipédia.

Et c'est ainsi que la signature de Jean Moulin s'est retrouvée, en moins de 5 minutes, correctement positionnée dans les infobox des Wikipédia en gaélique et en grec.

Lire la suite : #39 - Opération "Signatures", ou disséminer des autographes sur Commons, Wikidata et Wikipédia

Ecrire un commentaire (0 Commentaires)

Le Parisien chez lui au XIXe siècle, ou reconstituer une exposition sur Commons

parisien chez lui

Un an après l'opération "70 ans d'expositions aux Archives nationales" sur Wikidata, le contexte sanitaire n'ayant pas beaucoup évolué, l'occasion est parfaite pour tenter une reconstitution de l'une des expositions qui a le plus marché : "Le Parisien chez lui au XIXe siècle", qui a eu lieu en 1976 et 1977.

Armée du catalogue d'exposition, qui liste pas moins de 700 oeuvres (peintures, documents d'archives, estampes), je vais tâcher de catégoriser une partie des documents exposés sur Wikimédia Commons.

Reconstitution partielle car :

700, c'est beaucoup !
une bonne partie des oeuvres d'art (à commencer par celle utilisée pour l'affiche et le catalogue), sont issues de collections privées, et donc introuvables en ligne. De très nombreuses pièces proviennent ainsi de la collection Debuisson
un grand nombre d'autres font partie de collections publiques (Bibliothèque historique de la Ville de Paris en particulier) mais ne sont pas nécessairement numérisées et (librement) accessibles et réutilisables en ligne.

Néanmoins, c'est l'occasion d'aller à la pêche, de téléverser de nouveaux documents dans Commons (archives, estampe publiées dans des magazines, etc), d'avoir un peu de beau sous les yeux en cette période compliquée, et de redonner un peu de couleurs au catalogue noir et blanc.

Pour aller pluis loin

Catégorie Le Parisien chez lui au XIXe siècle sur Wikimedia Commons
70 ans d'expositions aux Archives nationales"
Requête Wikidata sur les expositions des Archives nationales

Sur la Collection Debuisson :

Cohen, Évelyne, et Julie Verlaine. « Paris documenté. Parcours dans la collection Debuisson », Sociétés & Représentations, vol. 33, no. 1, 2012, pp. 183-196, en ligne.
Catalogue de la vente aux enchères (2019)

Lire la suite : Le Parisien chez lui au XIXe siècle, ou reconstituer une exposition sur Commons

Ecrire un commentaire (0 Commentaires)

#38 - D'un inventaire PDF à un fichier XML : cas pratique OpenRefine

38 cas pratique openrefine À l'occasion d'un récent encodage d'inventaire parfait pour l'exercice et après plusieurs formations partielles et expresses tronquées faute de temps, voici enfin le pas à pas illustré et détaillé du cheminement permettant de passer d'un magnifique inventaire PDF très textuel à un inventaire électronique publiable sur un portail d'archives.

L'inventaire PDF initial faisait 55 pages et concerne un peu plus de 700 descriptions de dossiers, mais le cheminement est identique (et a été éprouvé) pour des contenus de milliers de notices.

Il ne s’agit pas ici de fournir la meilleure ou la plus rapide méthode pour arriver au but. Tout dépend du contenu initial, de la maîtrise de l’outil OpenRefine, et de la façon de penser et de construire des sous-ensembles auxquels appliquer des transformations en masse. Ce cas pratique vise à donner des idées de méthodes et de logiques applicables pour l'encodage et la normalisation de contenus volumineux et sériels.

Enfin, loin de moi l'idée de laisser entendre que l'encodage XML EAD est la solution idéale pour ce genre de données. Les données nettoyées et enrichies dans OpenRefin sont d'ailleurs exportables en différents formats (CSV, JSON, HTML, etc.) et donc facilement réinjectables dans des structures informatiques. Néanmoins, le XML EAD est à l'heure actuelle souvent le seul outil de publication en ligne de contenus archivistiques. Et mieux vaut un inventaire électronique normalisé et interrogeable en recherche qu'un fichier PDF ou Word noyé au fin fond d'un serveur en local ou en ligne.

Le cas pratique se découpe en 4 grandes parties :

1. Transformation du contenu en tableur structuré (diapos 4 à 27) : c'est la phase la plus longue (environ deux grosses heures sur le jeu de données utilisé) ;
2. Harmonisation et enrichissement (diapos 28 à 41) : environ une heure pour homogénéiser le contenu, corriger les coquilles voire enrichir les données d'origine ;
3. Exporter en XML EAD (diapos 42 à 46) : selon l'aisance avec le schéma XML EAD, pas plus de 15 et 30 minutes
4. Des pistes pour aller plus loin... (diapos 47 à 50) : pour le plaisir, quelques idées pour aller encore plus loin, en indexant en masse à partir de référentiel, en utilisant les données pour faire des statistiques ou de la réconciliation avec Wikidata pour enrichir les contenus.

Télécharger le PDF

Côté ressources, je renvoie vers le tutoriel pense-bête OpenRefine, "Excel aux hormones" publié sur ce site et régulièrement mis à jour, ainsi que les sites suivants :

Mathieu Saby, Nettoyer et préparer des données avec OpenRefine (BULAC, mise à jour 2019)
Ettore Rizza, Tutoriels vidéos (en français)
Maïwenn Bourdic, Atelier OpenRefine - Forum des Archives 2019 (avec jeu de données exemple et captures d'écran pas à pas)
Maïwenn Bourdic, Atelier OpenRefine et Wikidata (2019, journées Wikimédia Culture et numérique)

Ecrire un commentaire (1 Commentaire)

Wikidata et les archives (1) - 70 ans d'expositions aux Archives nationales

Profitons de ces temps de confinement pour réveiller (déconfiner ?) ce site un peu endormi... alors même les activités numériques parallèles ne manquent pas ! Ces dernières années, j'ai notamment investi Wikidata à travers différents projets archivistico-professionnalo-personnels :

renseignement de la propriété "archivé par" (P485 pour les intimes), en particulier dans le cadre du concours organisé lors du forum de l'AAF en 2019 ;
consolidation de données pour une liste d'autorité des architectes diocésains, à la fois en récupérant des informations de Wikidata (données biographiques, identifiant BNF, Leonore, etc.) et en y rajoutant de nouveaux éléments (données biographiques manquantes, fonctions, ajout de signatures) (Archives nationales ; voir la requête en ligne sur Wikidata) ;
ajout en masse des identifiants RSN manquants pour les services d'archives à partir des données disponibles sur data.culturecommunication, création en masse des services d'archives communaux et régionaux inexistants
création d'éléments et insertion des métadonnées descriptives de documents figurés téléversés sur Commons (travaux de restauration des cathédrales au XIXe siècle (Archives nationales ; voir la requête en ligne sur Wikidata) ;
et tout frais, tout neuf : 70 ans d'expositions aux Archives nationales (voir la requête en ligne sur Wikidata) .

Lire la suite : Wikidata et les archives (1) - 70 ans d'expositions aux Archives nationales

Ecrire un commentaire (0 Commentaires)

Plus d'articles...

Page 2 sur 10

Pour aller pluis loin

Plus d'articles...

À propos

Derniers articles

Mots-clés