Rechercher/remplacer par, faire des filtres, des tris, voire des macros, c'est sympa, mais souvent très long, fastidieux, et parfois frustrant. Alors jetez-vous sur OpenRefine, "Excel aux hormones" selon l'excellente expression d'Antoine Courtin.
Testé et adopté à l'occasion du datasprint des archives, OpenRefine permet de faire extrêmement vite (et très bien) des nettoyages, des harmonisations et des enrichissements de données, en masse !
Même si l'essentiel de la documentation est en anglais, l'outil est utilisable en français et manipulable assez rapidement. Point non négligeable quand on travaille en collectivité sur des réseaux informatiques très verrouillés : il suffit d'avoir téléchargé le logiciel sur une clé USB, de glisser le répertoire sur son ordinateur et d'ouvrir le fichier exécutable pour l'utiliser (même sans droit administrateur).
Pour ma part, je me suis d'abord contentée de visualiser les 3 vidéos ci-dessous (en anglais, mais elles valent le coup d'oeil, juste pour avoir une idée de l'immensité des possibles)... avant de me jeter dans le bain, de tâtonner et de chercher au fur et à mesure des besoins.
Pour l'histoire rapide, l'outil a initialement été développé en open-source, puis soutenu par Google (d'où l'existence de versions Google Refine, de 2010 à 2012) puis de nouveau entièrement ouvert.
En plus d'être un peu didactique, le tutoriel ci-dessous est surtout un pense-bête personnel mais partagé, amené à s'enrichir régulièrement, pour garder sous la main les formules plus ou moins alambiquées trouvées parfois au bout de longues recherches et d'essais plus ou moins fructueux.
Ce tutoriel a été rédigé en 2017, à une période où ce réseau social avait encore, à mon sens, un intérêt dans la médiation numérique du patrimoine. Ce n'est plus le cas depuis 2022, du fait des évolutions de l'outil, sa gouvernance politique et économique, ses règles de confidentialité, ses algorithmes, et les interactions qui peuvent y rester avec les publics qu'on cherche vainement à atteindre.
Le billet a dont été dépublié. Une version archivée est visible en PDF et sur Internet.archive
Ce tutoriel a été rédigé en 2016, à une période où ce réseau social avait encore, à mon sens, un intérêt dans la médiation numérique du patrimoine. Ce n'est plus le cas en 2023, du fait des évolutions de l'outil, sa gouvernance politique et économique, ses règles de confidentialité, ses algorithmes, et les interactions qui peuvent y rester avec les publics qu'on cherche vainement à atteindre...
Le billet a dont été dépublié. Une version archivée est visible en PDF et sur Internet.archive.
Et si je disais qu'il est désormais facile (et gratuit) de construire un formulaire sur mesure, d'en extraire les données pour les visualiser / faire des statistiques et des visualisations / de les transformer en inventaire ou en bases de données interrogeables... voire de proposer un formulaire d'indexation collaborative pour des corpus déjà en ligne, en récupérer la substantifique moelle et faire ainsi du crowdsourcing à moindre frais ?!
Jusqu'à présent il n'y avait que Google Forms qui tenait la route. Désormais il y a Framaforms : c'est libre, open source, gratuit, c'est garantie confidentialité des données, et ça fait partie du projet Dégooglisons Internet dont il a déjà été question.
Framaforms permet (entre autres) :
de créer des sondages, questionnaires ou autres formulaires plus ou moins complexes et sur-mesure avec toutes sortes de champs (listes déroulantes, cases à cocher, champ texte libre, etc.) ;
de les diffuser facilement avec une adresse web ou en les intégrant dans un site Internet (voir le tutoriel sur le code embed) ;
de récupérer le contenu sous format CSV ou Excel ;
d'avoir une analyse graphique rapide des résultats.
Ils font régulierement parler d'eux (dernièrement encore Les Archives nationales des États Unis et leurs gifs), et pourtant ca fait un moment qu'ils sévissent sur le web. Ils, ce sont les gifs animés (prononcer plutôt "jif") .
Le "Graphics Interchange Format (littéralement « format d'échange d'images »), plus connu sous l'acronyme GIF, est un format d'image numérique couramment utilisé sur le web". Il permet notamment de stocker plusieurs images en un seul fichier. Et plusieurs images jouées en boucle, ca donne ça...
Le numérique c’est fantastique (et non dramatique), surtout quand on travaille dans le domaine du patrimoine.
« C’est compliqué… ». « Je n’ose pas… ». « Je ne sais pas comment faire… »
Nul besoin d’années de code pour se simplifier la vie et le boulot sur un ordinateur. Archiviste et formatrice sur les outils et la médiation numérique, j'ai créé en 2015 ce blog pour partager et diffuser auprès des acteurs des archives et du patrimoine des tutoriels et des outils simples, pratiques et gratuits.