Documenter ses données

L’exemple du département d’ingénierie chimique de Carnegie aux Etats-Unis

Afin de gagner en efficacité dans le partage de leurs données de recherche, certaines équipes ont développé des méthodes leur permettant d’améliorer le processus de publication en y intégrant directement les données.

C’est le cas du département d’ingénierie chimique de Carnegie aux Etats-Unis, qui a mis au point son propre processus permettant d’intégrer des données au sein d’un article, en les rendant lisibles par l’homme comme par la machine (1).

La première solution proposée est d’intégrer les fichiers de données directement au PDF contenant les informations supplémentaires de l’article (supporting information file), données qui pourront ensuite être extraites et utilisées. Il faut pour cela se munir d’un lecteur de PDF compatible avec l’intégration de fichiers (Adobe ou Foxit par exemple).

Image tirée du PDF “supporting information file” de l’article d’ACS

Voici un exemple de réutilisation de données :

On souhaite réaliser de nouveaux calculs sur un logiciel spécialisé à partir de paramètres présents dans un fichier JSON, lui-même intégré dans le PDF d’informations supplémentaires (supplementary materials) de l’article. Le logiciel requiert l’importation de plusieurs fichiers de données (les paramètres) dans un format bien précis afin de pouvoir lancer les calculs. 

Un code python proposé dans le PDF d’explications permet de lire le fichier JSON, d’en extraire les paramètres dont on a besoin et de les structurer selon les formats requis par le logiciel. Cet exemple bien précis permet de réutiliser les données de manière automatique, mais il est évidemment possible d’ouvrir le fichier de données et le traiter manuellement.

L’avantage de cette méthode est qu’elle est rapide et simple à utiliser. L’inconvénient est qu’on ne peut pas joindre des fichiers de données trop volumineux. Son usage dépendra donc des disciplines (les fichiers de données en astrophysique sont très volumineux par exemple). De plus, on devra rajouter les données à chaque version du document, ce qui peut s’avérer laborieux.

La deuxième solution proposée est d’associer l’éditeur de texte Emacs avec Org-mode, une syntaxe avancée d’édition de document (qu’on peut rapprocher de LaTeX). L’objectif est de spécifier selon une syntaxe définie par Org-mode les zones de texte, les zones de codes et les tableaux (dont les données font partie). On peut ainsi avec ces deux outils intégrer des données interactives dans un document, qu’on pourra exporter dans un format PDF, HTML, LaTeX et autre. De plus, le fichier .org est dans un format txt standard.

L’intérêt de cette solution est donc d’avoir des tableaux de données directement dans le PDF, qui seront faciles à lire pour l’utilisateur et un fichier structuré au format .org facilement lisible par la machine si on souhaite réutiliser les données. Ce dernier fichier est intégré dans le PDF d’explications en utilisant la première méthode.

L’avantage de cette version est que les données sont quasiment tout le temps lisibles par les humains et la machine. De plus, les données étant balisées dans un fichier txt, le volume sera moindre qu’un fichier de données brutes.

En revanche, il faut admettre que cette solution nécessite un certain temps d’apprentissage si l’on n’est pas familier avec ce type d’édition. L’auteur de l’article avance que ce temps d’apprentissage est rentabilisé sur le long terme, puisqu’il permet, une fois la méthode maîtrisée, de diminuer le temps de préparation de la publication.

Il ne faut pas oublier que certains standards de métadonnées sont déjà disponibles pour documenter les données. En revanche il n’y en a pas pour chaque discipline et cette solution permet de partager des données rapidement et correctement “faute de mieux”.

  1. Kitchin, John R. “Examples of Effective Data Sharing in Scientific Publishing.” ACS Catalysis, vol. 5, no. 6, June 2015, pp. 3894–99. DOI.org (Crossref), doi:10.1021/acscatal.5b00538.