41 genrer divette

Cela aurait pu être une communication (non retenue) lors d'une journée d'étude... mais ça sera finalement un billet de blog. Avec un clin d'oeil pour commencer :

  • Une photographie joyeuse des Archives des Bouches-du-Rhône, ainsi légendée : "Yves Montand, une divette et un journaliste, René Monduel, prennent la pose"
  • Et ma réponse : "mais qui est la divette ?"

La preuve par l'exemple qu'en matière de visibilisation des femmes, nos données patrimoniales font pâle figure. Quand on cherche des femmes dans les bases de données et catalogues, on peut en trouver, bien sûr, mais principalement en effectuant une recherche nominative (et encore, entre le nom d'épouse et le nom de naissance) ou en rusant sur les termes et des vocabulaires susceptibles de concerner "des femmes".

Les données c'est bête et méchant : une notice concernant Marguerite ne sortira pas en résultat de recherche "femme" s'il n'est pas précisé que Marguerite est une femme. Que faire alors pour mieux faire sortir des résultats de recherche, mais aussi améliorer la découvrabilité des contenus et rendre visible l'implicite ?

Petit retour d'expérience sur ce que je pratique dès que c'est possible lors d'opérations de rétroconversion et/ou mise en qualité de données nominatives sérielles.

Prenons pour exemple un magnifique index d'inventaire (sommaire) de série B d'archives départementales, en l'occurrence celui des séries A et B du Finistère (tome 1 : Présidial et cour ou sénéchaussée royale de Quimper, cour ou sénéchaussée royalle de Concarneau, Fouesnant et Rosporden). Une fois l'OCR un peu nettoyé (qualité de reconnaissance autour de 70%), les lieux, les matières et les renvois expurgés, il reste un peu moins de 17000 entrées qui correspondent à des individus, hommes et femmes mélangés et non discriminés.

41 genrer donnees 7

En utilisant OpenRefine et ses combinaisons de facettes et filtres sur la colonne Prénom, il est facile et rapide de genrer des données nominatives sérielles.

Travaillons d'abord sur la masse, et les prénoms les plus courants : facette textuelle + tri par compte. La facette textuelle permettra d'identifier des contenus de cellules identiques.

 

41 genrer donnees 1

Sélectionner plusieurs facettes de prénoms féminins sûrs (oubliez "Marie"), puis ajouter pour cette sélection une nouvelle colonne en spécifiant "F".

 

41 genrer donnees 2

 

Il s'agit ensuite de procéder par cercles concentriques, pour ajouter, selon les sélections de prénoms, l'indication F ou M dans cette nouvelle colonne "sexe". Par exemple : sélectionner quelques prénoms masculins très répandus (Jean, Yves, Guillaume, François, ...) ; écrire H dans la colonne "sexe" et appliquer à toutes les cellules identiques.

 

41 genrer donnees 3

 

Pour ne garder à l'écran que les lignes restant à traiter, faire une facette par valeur vide sur la colonne "sexe" (facette personnalisée / facette par valeur vide) (1). On peut ensuite diversifier les filtres :

- filtrer la colonne "prénom" sur tous les prénoms terminant en "-ine" : ine$ en cochant "expression rationnelle" (2) (cela marche aussi avec les suffixes -ette, -ienne ou -ie)

- utiliser la facette par mot sur les prénoms pour contrôler la sélection et genrer uniquement les bonnes lignes (attention à "Antoine" !)

 

41 genrer donnees 4

 

Le filtre de texte est à utiliser avec les prénoms communs pour faire émerger les prénoms composés (par exemple Jeanne pour Jeanne Marie, Jeanne Marguerite, Marie Jeanne, etc.). Il permet également de faire émerger d'éventuels qualificatifs féminins : épouse, veuve, dame, voire "née XXX" selon les données d'origine.

 

41 genrer donnees 6

41 genrer donnees 4

Ultime option très pratique proposée par OpenRefine : la facette par mot (facette personnalisée / facette personnalisée / facette par mot), qui permet de sélectionner des mots (chaînes de caractères qui se suivent, sachant que l'espace est une rupture de chaîne de caractère, mais pas les tirets ou autres caractères de ponctuation).

41 genrer donnees 8

 41 genrer donnees 9

C'est ainsi qu'en multipliant les différents filtres et facettes, le nombre de lignes non genrées diminue drastiquement. En moins d'une heure, 95% des données ont pu être genrées (le petit pourcentage restant étant essentiellement dû, dans le cas présent, à la qualité moyenne de l'OCR de départ). Les femmes représentent ici plus de 25% des individus de l'index !

Il y a toujours quelques cas ambigus à trancher, notamment les prénoms mixtes : que faire de Marie par exemple ? Selon la masse, on peut botter en touche (indiquer "non précisé", ce que je fais généralement quand il n'y a pas de prénom), voire se reporter à l'original. Dans le cas présent, un sondage de l'inventaire auquel renvoit l'index confirme que "Marie" employé seul ne concerne que des femmes (et d'expérience généalogique dans le coin, il y a des Marie partout mais pas en prénom masculin seul).

Une fois la colonne "sexe" renseignée pour tout le jeu de données, il ne reste plus qu'à exporter ces contenus enrichis et à les diffuser (export CSV, encodage spécifique à partir des patrons à créer dans OpenRefine). 

(voir fichier CSV enrichi des AD29 - mais toujours un peu sale du fait de l'OCR de départ :-) )

Exemples d'inventaires avec des données sérielles enrichies :

 

Pour aller plus loin

 


Comments est propulsé par CComment