Tutoriels - Patrimoine et numérique

#45 - Fichier des décès de l'INSEE depuis 1970 et deces.matchid

Depuis la fin de l'année 2019 (et à la suite d’un avis de la CADA), l’INSEE publie chaque mois en open data le fichier des personnes décédées depuis 1970 (voir sur data.gouv). Les données mises à disposition sont de merveilleux fichier TXT contenant les noms (de naissance), prénoms, date et lieu de naissance, date et lieu de décès et numéro d’acte.

Attention, il y a des lacunes, notamment entre les années 1970 et 1980 (voir aussi la FAQ de deces.matchid).

Qui dit open data, dit plein de réutilisations possibles, aussi bien pour des applications de recherche et d'accès aux données que pour des visualisations graphiques. Un certain nombre de ces réutilisations sont signalées sur data.gouv.fr. Les données sont par ailleurs intégrées aux sites Internet de généalogie en ligne comme Geneanet ou Filae.

Parmi les applications facilitant l'interrogation des données, j'aime tout particulièrement deces.matchid, lancée en 2020 par Fabien Antoine, Martin Gross et Cristian Perez Brokate à la suite d'un projet comme entrepreneurs d’intérêt général au ministère de l’Intérieur. Le projet, aujourd’hui disponible en open source, est développé et maintenu de manière bénévole.

Cet outil est assez génial et incontournable quand on veut publier des données nominatives récentes en ligne (au hasard : des inventaires d'archives respectueux du RGPD, en vérifiant que les gens sont "assez morts"), enrichir ses propres données (avec des prénoms et des dates et lieux d'existence précis), ou encore pour enrichir ses recherches généalogiques personnelles sur les 20e et 21e siècles.

Lire la suite : #45 - Fichier des décès de l'INSEE depuis 1970 et deces.matchid

Ecrire un commentaire (0 Commentaires)

44 - In RSS we trust

Petit billet rapide (comme un flux RSS) sur le flux RSS (established since 2002), ce morceau de XML si précieux à l'heure de l'émiettement des réseaux sociaux et de l'infobésité numérique. En 10 ans de blog Patrimoine et numérique il n'en avait encore jamais été question... mais j'en avais parlé sur d'Aïeux et d'Ailleurs en 2008 (voir l'article Flux et reflux (virtuels)).

Billet inspiré des échanges avec AVBB et CB

Qu'est ce que c'est ?

RSS signifie "really simple syndication", c'est-à-dire "syndication super simple" (au sens "regroupement automatisé de contenu"). En gros c'est un flux de données XML qui se met à jour automatiquement dès l'ajout d'un contenu sur un site internet, contenant notamment une date, un titre de contenu, une description et une URL. Une sorte de newsletter automatisée.

Lire la suite : 44 - In RSS we trust

Ecrire un commentaire (0 Commentaires)

#43 - Coucou Mastodon

C'est fait ! Aprés avoir effacé puis quitté Facebook au printemps 2018, j'ai repris le balai sur Twitter en décembre 2022 (quelques pouets sur le sujet plus bas), non sans y avoir songé des mois sans totalement franchir le pas... Une fois mon archive de tweets soigneusement téléchargée (avec un moteur de recherche beaucoup plus manipulable que ne l'est le site lui-même), j'ai liquidé quelques 22 000 tweets, 2300 abonnés et 13 ans d'activité de mon compte principal. Avec comme objectif de (ré-)investir uniquement et une bonne fois pour toutes le fédiverse, via Mastodon. Mes deux comptes Twitter sont désormais désactivés avant suppression automatique d'ici fin septembre 2023.

43 geek twitter daieuxdailleurs

Je ne renierai pas ces 13 ans sur Twitter (surtout les 10 premières années), qui m'ont tant apporté. Aussi bien sur le plan professionnel que personnel, j'y ai fait de très belles rencontres, que je n'aurais pas forcément faites ailleurs. J'y ai énormément appris, découvert plein de choses et partagé (beaucoup de veille archivistique et généalogique), qui m'ont permis d'évoluer et d'élargir mes horizons. Mais je pense ici plutôt au Twitter des années 2010. Depuis plusieurs années, les modifications des algorithmes, les difficultés à réussir à y faire une veille efficace, le côté scroll chronophage et vide-cerveau, les TT nauséabonds qu'on essaie de ne pas voir, les mini buzz de cette bulle déconnectée du réel (mais avec tant d'impact, notamment dans les médias), le harcèlement publicitaire... L'outil avait perdu ce qui en faisait son intérêt, bien avant son rachat par EM.

Me voici depuis 10 mois en plein ré-investissement de Mastodon, avec la ré-activation de mon compte @daieuxetdailleurs@framapiaf créé en 2017 sur une instance gérée par Framasoft. J'avais également utilisé en son temps l'instance etalab avec mon mail pro. Il "manque" encore quelques comptes que j'aimais bien suivre (archivistes, institutions culturelles, associations, historiens, centre de recherche, journalistes). Mais je survis sans, et j'ai réactivé de bons vieux flux RSS (quand c'est possible). Il n'y a plus de possibilité de rechute et de s'en scroller une sur Twitter : désormais (au 30 août 2023, à chaque jour sa nouvelle régression), les internautes lambda non connectés ne peuvent plus voir les tweets des comptes (sauf à avoir une coche "compte certifié").

Lire la suite : #43 - Coucou Mastodon

Ecrire un commentaire (1 Commentaire)

#42 - Cat-a-lot, outil pour catégoriser en masse des (ses) médias sur Wikimédia Commons

Les images patrimoniales sont souvent utilisées par des Wikipédiens pour illustrer des articles Wikipédia. Ces médias, hébergés sur Wikimédia Commons (voir aussi Mettre en ligne des images sur Commons) sont généralement correctement décrits, avec indication de leur provenance dans la description. Elles sont néanmoins rarement rattachées aux catégories regroupant les collections des institutions patrimoniales (lorsqu'elles existent... et lorsque c'est le cas, elles sont peu connues). Le gadget cat-a-lot permet d'ajouter sur Commons des catégories à des lots d'images ou des catégories. Ce travail de catégorisation est important :

il permet d'identifier la provenance des contenus réutilisés par les internautes :
il offre la possibilité d'avoir des statistiques de leur visualisation ;
il permet d'améliorer la visibilité de l'institution patrimoniale (qu'elle contribue en téléversant des contenus sur Commons ou non).

Des centaines d'images issues des collections des archives départementales, mises en ligne sur Commons, ont ainsi pu être rattachées à leur institution d'origine, alors même que moins d'une dizaine de services mettent en ligne "volontairement" des médias sur cette plateforme.

Petit mode d'emploi rapide de cet outil cat-a-lot.

Lire la suite : #42 - Cat-a-lot, outil pour catégoriser en masse des (ses) médias sur Wikimédia Commons

Ecrire un commentaire (0 Commentaires)

#41 - Où sont les femmes ? ou comment genrer nos données patrimoniales

41 genrer divette

Cela aurait pu être une communication (non retenue) lors d'une journée d'étude... mais ça sera finalement un billet de blog. Avec un clin d'oeil pour commencer :

Une photographie joyeuse des Archives des Bouches-du-Rhône, ainsi légendée : "Yves Montand, une divette et un journaliste, René Monduel, prennent la pose"
Et ma réponse : "mais qui est la divette ?" ⁽¹⁾

La preuve par l'exemple qu'en matière de visibilisation des femmes, nos données patrimoniales font pâle figure. Quand on cherche des femmes dans les bases de données et catalogues, on peut en trouver, bien sûr, mais principalement en effectuant une recherche nominative (et encore, entre le nom d'épouse et le nom de naissance) ou en rusant sur les termes et des vocabulaires susceptibles de concerner "des femmes".

Les données c'est bête et méchant : une notice concernant Marguerite ne sortira pas en résultat de recherche "femme" s'il n'est pas précisé que Marguerite est une femme. Que faire alors pour mieux faire sortir des résultats de recherche, mais aussi améliorer la découvrabilité des contenus et rendre visible l'implicite ?

Petit retour d'expérience sur ce que je pratique dès que c'est possible lors d'opérations de rétroconversion et/ou mise en qualité de données nominatives sérielles.

Lire la suite : #41 - Où sont les femmes ? ou comment genrer nos données patrimoniales

Ecrire un commentaire (0 Commentaires)

Plus d'articles...

Page 1 sur 10

Qu'est ce que c'est ?

Plus d'articles...

À propos

Derniers articles

Mots-clés