45 fichier insee 1Depuis la fin de l'année 2019 (et à la suite d’un avis de la CADA), l’INSEE publie chaque mois en open data le fichier des personnes décédées depuis 1970 (voir sur data.gouv). Les données mises à disposition sont de merveilleux fichier TXT contenant les noms (de naissance), prénoms, date et lieu de naissance, date et lieu de décès et numéro d’acte.

Attention, il y a des lacunes, notamment entre les années 1970 et 1980 (voir aussi la FAQ de deces.matchid).

Qui dit open data, dit plein de réutilisations possibles, aussi bien pour des applications de recherche et d'accès aux données que pour des visualisations graphiques. Un certain nombre de ces réutilisations sont signalées sur data.gouv.fr. Les données sont par ailleurs intégrées aux sites Internet de généalogie en ligne comme Geneanet ou Filae.

 

45 fichier insee reutilisations

Parmi les applications facilitant l'interrogation des données, j'aime tout particulièrement deces.matchid, lancée en 2020 par Fabien Antoine, Martin Gross et Cristian Perez Brokate à la suite d'un projet comme entrepreneurs d’intérêt général au ministère de l’Intérieur. Le projet, aujourd’hui disponible en open source, est développé et maintenu de manière bénévole.

Cet outil est assez génial et incontournable quand on veut publier des données nominatives récentes en ligne (au hasard : des inventaires d'archives respectueux du RGPD, en vérifiant que les gens sont "assez morts"), enrichir ses propres données (avec des prénoms et des dates et lieux d'existence précis), ou encore pour enrichir ses recherches généalogiques personnelles sur les 20e et 21e siècles.

 

Deces.matchid.io met à disposition un moteur de recherche assez puissant pour interroger efficacement les données de décès de l'INSEE. En plus d'une barre de recherche simple, le moteur de recherche avancée permet d'interroger tous les champs des données d'origine, avec un système de recherche stricte sur l'orthographe et les dates, ou de recherche "floue" qui permet de jouer sur les variantes orthographiques, l'ordre des prénoms ou encore les différences de dates.

 

 

Chaque notice individuelle dispose d'un permalien sur deces.matchid.io, ce qui permet de les citer facilement. Cela n'a pas échappé à la communauté Wikidata : les données des deux plateformes sont reliées (et reliables) grâce à l'identifiant matchID (P9058). Il suffit de renseigner sur Wikidata la propriété P9058 avec le suffixe du permalien et le tour est joué sur deces.Matchid.io (quelques semaines plus tard). Il y a même une petite photo lorsqu'elle existe sur Wikidata (mais pas encore pour Geneviève Poujol).

 

45 fichier insee poujol 1

Autre point fort deces.matchid.io quand on gère des données sérielles nominatives : son outil d'appariement. A partir d'un fichier CSV contenant des colonnes avec des noms, prénoms, dates (même approximatives) de naissance, l'outil permet d'interroger en masse les données de l'INSEE et propose les correspondances d'individus possibles (avec un système de score de pertinence pour (in)valider ou valider les matchs) entre le fichier source et les données de l'INSEE.

 

45 fichier insee appariement 1

 

45 fichier insee appariement 2

Les correspondances peuvent être validées sur la plateforme, ou en dehors avec téléchargement du fichier de données enrichi. Selon les cas d'usage, il peut être utile de télécharger le fichier complet fourni par deces.matchid et de choisir les correspondances à valider en fonction du score d'appariement, ou de ne prendre en compte que ce qui a une correspondance unique validée automatique (fichier "les décès identifiés"). Le fichier enrichi par deces.matchid contient, en plus des données du fichier "source" :

  • Lieu de naissance (commune, numéro de département, pays, codes postal et INSEE, coordonnées géographiques)
  • Lieu de décès (commune, numéro de département, pays, codes postal et INSEE, coordonnées géographiques)
  • Sexe
  • Nom
  • Prénoms
  • Score d’appariement (entre 0 et 1)
  • Identifiant du fichier INSEE
  • Identifiant unique deces.matchid (suffixe du permalien)

 

Mes données sérielles nominatives étant gérées dans des projets OpenRefine, j'ai tendance à croiser dans ce logiciel mon fichier source et le fichier enrichi via deces.matchid, afin de récupérer tous les nouveaux contenus intéressants (sexe, lieux d'existence, identifiant deces.matchid), voire d'enrichir dans la foulée Wikidata avec les données qui n'y figureraient pas encore. Conseil : toujours avoir une colonne "identifiant unique" dans le fichier "source", qui pourra servir de pivot pour croiser le fichier d'origine et celui enrichi par deces.matchid.

A noter : les dates fournies par l'INSEE sont sous la forme AAAAMMJJ. Il faut donc les transformer pour avoir un format plus lisible, par exemple au moyen d'expressions régulières.

Rechercher ([0-9][0-9][0-9][0-9])([0-9][0-9])([0-9][0-9])
Remplacer par $1-$2-$3


Rechercher 19910527
Remplacer par 1991-05-27

 

[Billet s'appuyant en partie sur un atelier pratique fait aux Archives nationales en 2023]

 

Pour aller plus loin

 


Comments est propulsé par CComment