Gestion des données : une nouvelle exigence, de nouvelles compétences
« Cela a l’air ennuyeux, mais c’est essentiel. » (1)
Non sans humour, un éditorial de Nature résume le défi qui attend les chercheurs invités à produire des plans de gestion des données, désormais considérés comme un livrable obligatoire par les organismes de financement de la recherche, à l’échelle nationale et européenne.
Quelques chiffres illustrent l’enjeu :
- Seuls 8% des articles en physique et 5% des articles en chimie mettent à disposition les données associées aux publications, selon une étude publiée en 2015. (2)
- 50 % des expériences sont considérées comme non-reproductibles. (3)
- 80 % des données produites ces 20 dernières années seraient perdues. (4)
- 93 % des établissements d’enseignement supérieur n’ont pas de démarche de plan de gestion des données de la recherche. (5)
- 90 % des chercheurs interrogés dans le cadre d’un sondage européen (6) disent effectuer de manière individuelle le stockage, l’archivage ou la transmission de leurs données.
- 33 % de ces mêmes chercheurs n’ont jamais entendu parler des plans de gestion de données ou estiment qu’ils n’en ont pas besoin. (7)
- Plus de 80 % des données produites sont stockées ailleurs que dans des entrepôts. (8)
Depuis 2019, les laboratoires soutenus par l’ANR doivent fournir à cette dernière un plan de gestion des données, communicable dans les six mois qui suivent le démarrage du projet. Le document, de nature évolutive, a vocation à être ajusté à mi-parcours, avant la transmission de la version définitive, pour les projets de plus de 30 mois. Pour les partenariats internationaux, un modèle de PGD autre que celui de l’ANR peut être utilisé.
A ce stade, les plans de gestion ne font pas l’objet d’une évaluation de la part de l’ANR.
Le document, décliné en six parties, vise à anticiper chaque étape de la gestion, en lien avec le cycle de vie de la donnée : collecte, documentation, stockage, sécurité, partage et conservation, coût.
Plusieurs outils sont mis à votre disposition pour vous aider dans votre démarche.
- Une Foire aux Questions (FAQ) de l’ANR, ainsi qu’une plateforme d’aide à la rédaction des plans de gestion de données, DMP Opidor, (mis en place par l’Institut national de l’information scientifique et technique). La création d’un compte vous permettra d’être guidé, étape par étape, dans la rédaction du document, d’enregistrer votre version du PGD, de la partager et la soumettre aux commentaires de vos partenaires. Par défaut, le PGD est en accès restreint, mais il est également possible de modifier les paramètres pour le rendre public.
- Des modèles (fictifs) de PGD, mis en ligne à l’issue des journées nationales pour la science ouverte.
- Un guide Faire entrer la science ouverte dans son projet ANR : un guide pratique édité par le GTSO (Groupe de Travail Science Ouverte ) Données de Couperin, qui facilite la prise en compte de la gestion des données dans le projet dès son montage et lors de la rédaction de la proposition détaillée.
- Une comparaison des entrepôts susceptibles d’accueillir vos données.
- Un panorama des standards de métadonnées applicables à la chimie et la physique.
- Des outils d’estimation des coûts afférents à la gestion des données. Celui-ci, développé par la plus grande Université publique des Pays-Bas (TU Delft), repose sur la part d’emploi temps plein nécessaire en fonction du volume de données produites (inférieur ou supérieur à 5 To), le caractère confidentiel ou non des données traitées, le nombre de partenaires et les éventuels enjeux de données personnelles. Cet autre outil, développé par l’EPFL en Suisse, prend en compte les coûts d’infrastructures (serveur, cahiers de laboratoire électroniques, entrepôts de données etc).
Des estimations plus globales tendent à affecter, en moyenne, 5 % du budget total du projet pour couvrir les frais relatifs à la gestion des données. - Un recensement des formats informatiques à privilégier ou à éviter, en fonction du degré de pérennité recherché.
- Un outil d’évaluation de la conformité de votre plan de gestion aux principes FAIR gouvernant les données (Faciles à trouver, Accessibles, Interopérables, Réutilisables), développé par l’ARDC (qui dépend de l’infrastructure nationale de recherche australienne).
- Des outils d’aide à la sélection de la licence de diffusion que vous souhaitez attribuer à vos jeux de données. Vous trouverez ici un outil de sélecteur de licences déposé sur Github. Vous pouvez aussi consulter la plateforme choosealicense.
- Un recensement de bonnes pratiques concernant la mise en ligne de jeux de données sur Figshare. Les points abordés sont assez exhaustifs et peuvent être consultés même sans objectif de dépôt dans l’entrepôt.
- Dans le cas où votre projet comprendrait des données personnelles, il est important de s’assurer du bon respect au Règlement Général sur la Protection des Données (RGPD), grâce à une analyse d’Impact sur la protection des données.
La CNIL met à disposition pour cela l’outil PIA, librement téléchargeable. - Un formulaire permettant de générer au format XML des métadonnées selon le standard DataCite 4.3 a été développé et mis en ligne sur GitHub. Vous pouvez téléchargez le fichier ici, en faisant bien attentation de l’enregistrer en format html.
- Un outil d’auto-évaluation élaboré par PLOS permettant d’estimer le niveau de reproductibilité de vos travaux.
Par ailleurs, si vous êtes à la recherche d’un interlocuteur adapté, le site « Openaccess Couperin » recense dans SOS PGD les services proposés dans les universités françaises pour accompagner les chercheurs dans la rédaction d’un plan de gestion de données.
Vous pouvez aussi nous contacter pour toute demande d’accompagnement à la rédaction de PGD.
Les PGD en quelques dates-clés
1966 : des esquisses de plans de gestion des données émergent dans le domaine de l’aéronautique.
1973 : la NASA publie un rapport technique qui s’apparente à un PGD.
2006 : le Medical Research Council (Royaume-Uni) requiert la mise en place de PGD pour les projets qu’il finance.
2007 : le Wellcome trust (Royaume-Uni), aujourd’hui membre du Plan S, requiert la mise en place de PGD pour les projets qu’il finance.
2007 : l’OCDE publie des lignes directrices, appelant les communautés scientifiques à documenter et à archiver les données de recherche.
2011 : la National Science Foundation (Etats-Unis) requiert la mise en place de PGD pour les projets qu’elle finance.
2014 : l’UE requiert la mise en place de PGD pour les projets financés dans le cadre de H2020.
2019 : l’ANR requiert la mise en place de PGD pour les projets qu’elle finance.
Chronologie inspirée de : Smale, Nicholas, et al. « The History, Advocacy and Efficacy of Data Management Plans ». BioRxiv, octobre 2018. www.biorxiv.org, doi: 10.1101/443499.
- « Everyone Needs a Data-Management Plan ». Nature, vol. 555, mars 2018, p. 286. doi:10.1038/d41586-018-03065-z.
- Womack, Ryan P. « Research Data in Core Journals in Biology, Chemistry, Mathematics, and Physics ». PLOS ONE, vol. 10, nᵒ 12, déc 2015. doi:10.1371/journal.pone.0143460.
- Rapport de la Commission européenne : « Realising the European Open Science Cloud », 2016.
- Exposé des motifs de la loi pour une République numérique, consulté sur Legifrance.
- Rapport de la Cour des comptes sur les infrastructures numériques et l’ESR, 2020.
- Rapport de la Commission européenne : « Providing researchers with the skills and competencies they need to practise Open Science », 2017.
- Ibid.
- Commission européenne, « Realising the European Open Science Cloud », op. cit.