Ressources

Ressources documentaires

Sommaire

Les chimistes, les physiciens et la science ouverte

Rapport sur les obstacles à l’ouverture des données par discipline : Pour plus de 50% des physiciens interrogés dans le cadre d’une étude menée par Springer Nature, organiser la présentation de ses données de manière efficace est l’obstacle principal à l’ouverture des données, devant les enjeux juridiques, le choix de l’entrepôt ou le manque de temps. 41% d’entre eux déclarent ne publier leurs données ni dans les “supplementary materials”, ni dans les entrepôts.

Etude sur les motivations à partager et réutiliser des données de recherche en astrophysique : L’étude a été réalisée auprès de 9 professeurs, doctorants et post-doctorants du département de physique de l’Université d’Oxford. Elle aborde les facteurs motivant et démotivant les astrophysiciens à partager leurs données et à réutiliser des données existantes, puis comment les disciplines avec un taux de partage plus bas peuvent être encouragées à partager plus. Par exemple, deux des raisons frainant le partage des données sont le volume conséquent des jeux de données en astrophysique, ainsi que le manque de métadonnées et d’outils facilitant la réutilisation des données parfois difficile à comprendre hors de leur contexte.

Rapport de Couperin sur les pratiques de publications des chercheurs français : Pour plus de 70% des chimistes interrogés dans le cadre d’une enquête Couperin en 2019, publier en open access permet d’accroître la visibilité de ses travaux. En revanche, les archives ouvertes (HAL, ChemrXiv…) ne semblent pas être le canal privilégié. Seuls 30% d’entre eux disent y déposer régulièrement leurs publications, contre plus de 80% des mathématiciens, par exemple.

Mise en place d’un nouveau format interopérable par l’ancien directeur de l’INC. Afin de favoriser le partage et l’accès aux données, le chimiste Dominique Massiot, directeur de recherche CNRS au sein du CEMHTI, a travaillé avec des chercheurs américains et danois à la mise en place d’un format Core Scientific Data Model (CSDM), qui favorise l’accès aux données (comme les spectres) d’un logiciel à l’autre, sans perte de métadonnées.

Les données ouvertes en chimie : Constatant le difficile accès aux données en chimie, un collectif de chercheurs et d’informaticiens, dénommé The Blue Obelisk, s’est constitué au début des années 2000 à San Diego. Leur action s’est concentrée sur l’ouverture des données, l’utilisation de formats ouverts et de logiciels open source en chimie. Un article publié dans Cheminformatics a fait le point sur les projets menés entre 2005 et 2011.

Enquête du consortium allemand NFDI4Chem sur les pratiques de gestion des données en chimie : réalisée fin 2019 auprès 541 chercheurs, post-docs et doctorants en chimie, l’enquête s’inscrit dans la démarche de numérisation des étapes clés de la recherche lancée par le consortium. Les résultats parus en décembre 2020 permettent de faire un état des lieux des besoins en terme de gestion des données en chimie. Par exemple, 17% des répondants à l’enquête indiquent être utilisateurs de solutions dématérialisées de cahiers de laboratoire (en incluant dans la question des logiciels de tableurs et traitement de texte). Retrouvez les résultats de l’enquête en anglais et allemand.

Feuille de route du consortium NFDI4Chem : publiée en juin 2020, la feuille de route est déclinée en 6 objectifs clés traduisant la vision du consortium sur la nécessité en chimie de proposer une infrastructure accompagnée de services pour chaque étape du cycle de vie des données : collecte, stockage, traitement, analyse, publication et réutilisation. Le troisième objectif mentionne notamment le besoin de se diriger vers des outils électroniques « intelligents » dans les laboratoires dans une démarche d’amélioration du processus de gestion des données de recherche. Les cahiers de laboratoire électroniques en font partie.

Articles sur la science ouverte dans le n°62 de la revue Reflets de la physique : publié en juin 2019, ce numéro met la science ouverte à l’honneur avec un éditorial sur les enjeux en physique, une enquête menée en juin 2018 par la Commission des publications de la Société Française de Physique auprès de physiciens sur l’état du système de peer review, et une tribune à propos du Plan S pour la science ouverte et ses limites.

Ouvrage consacré à la digitalisation des laboratoires : Discutée pour la première fois au congrès de l’American Chemical Society en 1993, la question des cahiers de labo électroniques fait l’objet de deux chapitres dans un ouvrage consacré à la digitalisation des laboratoires (Wiley, juin 2021). Les auteurs reviennent sur les fonctionnalités clés d’un ELN et proposent également un retour d’expérience à travers l’implémentation de l’outil Scinote dans un laboratoire.

Article dédié à la standardisation des pratiques informatiques en chimie : Publié dans le JACS en août 2021, cet article fait un état des lieux des pratiques actuelles de standardisation et de partage des données de la discipline en prenant le machine learning comme fil conducteur. L’article propose une architecture matérielle englobant toutes les phases de la synthèse chimique, ainsi qu’un nouveau moyen d’échange d’informations chimiques : XDL. Ces deux éléments réunis permettent l’automatisation du processus de synthèse chimique, jusqu’à l’exploitation des données par des algorithmes de machine learning.

Gestion des données : le cadre national et européen

Appel de Jussieu : après l’appel de Berlin (2003) puis l’appel d’Amsterdam (2016) qui encourageaient la publication en accès ouvert des publications scientifiques, l’appel de Jussieu adopté à Paris le 10 octobre 2017, élargit le débat aux données. Le texte soutient la publication des données associées aux articles et la fouille de texte. 

Loi pour une république numérique : promulguée le 7 octobre 2016, la loi vise à favoriser la circulation des données publiques et du savoir. Les données administratives comme les données de recherche sont couvertes par le texte. Celui-ci poursuit deux objectifs : limiter la perte des données scientifiques et éviter leur captation par les éditeurs privés. Ces derniers ne peuvent restreindre leur libre réutilisation, lorsque les données sont issues de travaux financés sur fonds publics (article 30, al. III, chapitre économie du savoir). Le principe de libre circulation et libre publication des données suppose toutefois que celles-ci ne revêtent pas de caractère confidentiel (secret industriel, secret défense, données personnelles), exceptions prises en compte par la loi. 

Plan national pour la science ouverte : adopté en juillet 2018, il appelle à “structurer et ouvrir les données de la recherche” (axe 2). Les buts poursuivis sont : le dépôt des données dans des entrepôts, la création de nouveaux entrepôts disciplinaires, la généralisation des plans de gestion de données, la publication accrue de data papers, la prise en charge des frais de traitement des données dans les appels à projet. Cette initiative a été complétée en juillet 2020 par une nouvelle version du plan national pour la science ouverte, lequel comprend désormais un volet consacré à l’ouverture des codes et logiciels.

Plan de gestion de données de l’ANR : Depuis 2019, tous les projets soutenus par l’ANR doivent faire l’objet d’un plan de gestion des données. Le modèle proposé par l’ANR comprend 6 sections (réutilisation de données existantes, documentation des données, stockage, exigences légales, partage, ressources.) Un guide établi par des bibliothécaires travaillant sur les données (groupe de travail Couperin sur la science ouverte) a été publié en 2020 pour vous aider. Il est disponible en version intégrale et également sous forme de synthèse.

Recommandations du Comité pour la Science Ouverte (CoSO) : La prise en compte de la maturité de chaque discipline en matière d’ouverture des données et l’évaluation des PGD font partie des recommandations émises par le CoSO, sollicité par l’ANR pour faciliter la mise en place des PGD. 

Directive européenne pour le droit d’auteur : dans sa version adoptée en avril 2019, elle fait de la fouille de texte un enjeu de compétitivité pour l’UE. Le texte introduit une exception au droit d’auteur en autorisant les organismes de recherche (donc uniquement des organismes publics) à réutiliser les contenus auxquels ils ont accès légalement afin d’automatiser la collecte de données pertinentes à l’aide d’algorithmes. Cette directive a été transposée en droit français via une ordonnance adoptée en 2021.

Etude juridique sur le data mining : La négociation de la directive européenne réformant le droit d’auteur a été précédée d’une étude juridique sur la fouille de texte disponible ici

Directive européenne sur l’open data : réformée en 2019, elle étend le champ de l’ouverture des données publiques aux données de recherche. L’article 10 y est consacré. Il enjoint les Etats membres à adopter des politiques en faveur de l’ouverture des données selon les principes FAIR, lorsque celles-ci découlent de projets financés sur fonds publics. Le texte dispose que la réutilisation de ces données peut avoir une finalité commerciale. 

Recommandation de la Commission européenne  sur l’accès aux informations scientifiques et à leur conservation : adopté en 2018, ce texte, qui n’a pas de valeur juridique contraignante, fixe le cadre que la Commission européenne défend auprès des Etats. Elle appelle ces derniers à mettre en place un “système efficace de dépôt des informations scientifiques au format électronique […], qui couvre les publications d’origine numérique et les résultats de recherche correspondants.”

Rapport comparatif européen : 14 Etats sur 28 ont légiféré en faveur de l’ouverture des données de recherche. Le rapport établi en 2019 par la Coalition de l’édition savante et des ressources académiques (Sparc Europe) est disponible ici.

Rapport de l’OCDE sur les entrepôts de données : Etude menée à partir de 32 plateformes de dépôt de données dans différents domaines (océanographie, neurosciences, physique etc.)

Etude comparative des différentes infrastructures de stockage et diffusion des données à l’international : Cette étude, publiée en janvier 2021, propose une mise en perspective de 7 services développés en Australie, Norvège, Pays-Bas, Grande-Bretagne, Canada et Allemagne.

Feuille de route CNRS : rendu public le 18 novembre 2019, le document décline 4 actions sur la gestion des données et 3 autres sur la fouille de textes. Le CNRS souhaite soutenir la mise en place de politiques de gestion de données dans les infrastructures de recherche, le développement d’entrepôts de données thématiques et d’outils permettant la fouille automatique de contenus (sous couvert de préciser les modalités de transposition de la directive européenne sur le droit d’auteur). 

Livre blanc Micado (Mission calcul et données) du CNRS : publié en janvier 2018, le rapport établit un état des lieux très instructif de la gestion des données dans les différents instituts du CNRS. En physique, les volumes de données colossaux (entre 200 To et 10 Po par an selon les infrastructures) produits par le synchrotron (SOLEIL et ESRF), la diffusion neutronique (ILL et Orphée) et le laser à électrons libres (X-FEL), ont enclenché la mise en place de politique de gestion des données. En chimie, le processus est moins avancé, mais le rapport fait état de réflexions au sein des très grandes infrastructures de recherches RMN-THC (300 To stockés en 2017), RENARD (40 To stockés en 2017) et FT-ICR (260 To stockés en 2017, 5000 To prévus en 2022).

Rapport sur l’avenir de l’édition scientifique en France. Publié en novembre 2019, ce rapport remis par Jean-Yves Mérindol à la ministre de la recherche revient de manière complète sur la gouvernance nationale et internationale de la science ouverte tout en préconisant la mise en place d’un plan de soutien à l’édition scientifique qui serait inclus dans la loi de programmation de la recherche. 

Stratégie nationale des Infrastructures de Recherche : publiée en 2021, cette feuille de route brosse le portrait d’une centaine d’infrastructures de recherche. Une quinzaine d’entre elles concernent la physique et la chimie. 

Support sur l’encadrement juridique des données de la recherche en France : Dans le cadre du projet CommonData, porté par Agnès Robin, maître de conférences en droit privé à l’Université de Montpellier, un séminaire a eu lieu en janvier 2020 sur les enjeux juridiques de l’ouverture des données. Retrouvez la vidéo de l’événement ici.

Plan données de la recherche du CNRS : dévoilé en novembre 2020, le document dresse les actions que souhaite mener le CNRS concernant les problématiques liées aux enjeux de stockage et d’ouverture des données de recherche. On peut notamment relever la volonté de créer « une direction fonctionnelle des données ouvertes », d’avancer la réflexion sur les cahiers de laboratoire électroniques en effectuant des recommandations, et enfin de réviser les critères d’évaluation des chercheurs en prenant en compte la production de données réutilisables.

Intégrité scientifique

Décret sur l’intégrité scientifique de la république française. Publié le 3 décembre 2021 le document concerne le respect des exigences de l’intégrité scientifique par les établissements publics contribuant au service public de la recherche et les fondations reconnues d’utilité publique ayant pour activité principale la recherche publique. Le décret change la donne en matière des données de la recherche, ajoutant aux exigences FAIR et science ouverte des exigences de déontologie encadrées par la loi. Dans l’article 2, il promeut la diffusion des publications en accès ouvert et la mise à disposition des méthodes et protocoles, des données et des codes sources associés aux résultats de la recherche. En plus, il incite à la publication des résultats de recherche dits négatifs ; dans l’article 6, il fait des Plans de Gestion de Données le cadre normal de toute recherche et il donne de nouvelles obligations aux organismes en matière de préservation des données.

Rapport de la Commission européenne sur la réforme de l’évaluation des chercheurs. Publié fin 2021, le document déplore les effets pervers du système actuel, où la culture du « publish or perish » est menée au détriment de la qualité et de l’intégrité scientifiques. Est donc préconisée la prise en compte d’autres réalisations que les publications telles que le peer reviewing, l’encadrement de doctorants, la vulgarisation scientifique et le partage des données de recherche.

Référentiel d’évaluation HCERES (2019-2020) : Pour sa campagne d’évaluation des laboratoires, le HCERES met en avant plusieurs critères qualité attestant du respect de l’intégrité scientifique. La tenue des cahiers de laboratoire fait partie des critères d’évaluation. Sont notamment cités “le référencement, dans ce cahier, des métadonnées et la consignation du résultat des travaux quotidiens du laboratoire ; l’existence d’une procédure de contreseing, d’archivage, de gestion des pièces jointes.”

Rapport du réseau “Qualité en recherche” du CNRS sur la traçabilité des activités de recherche : publié en 2018, le rapport cite notamment les cahiers de laboratoire électroniques comme “outils d’enregistrement et de traçabilité”. 

Reproductibilité scientifique

Étude de Nature : Près de 90% des chimistes sondés dans le cadre d’une étude menée en 2016 par Nature rapportent qu’ils ont déjà échoué à reproduire l’expérience d’un autre chercheur. Il s’agit du taux le plus élevé parmi les disciplines interrogées. Pire encore, 70% des chimistes échouent à reproduire leurs propres expériences, contre 50% des physiciens.

La politique du CERN : L’ouverture des données ne suffit pas à assurer la reproductibilité scientifique. Dans le domaine de la physique des hautes énergies, le CERN a mis en place un certain nombre de bonnes pratiques pour assurer la reproductibilité et la réutilisation des données. La politique de préservation des analyses (CAP) et le service de réutilisation des analyses (REANA) du CERN sont décrits dans cet article publié dans NaturePhysics.

« No raw data, no science » : Dans un article publié en février 2020, le rédacteur en chef de la revue Molecular Brain annonce sa décision de rendre obligatoire, à partir du 1er mars 2020, le versement des données permettant d’appuyer les conclusions publiées dans les articles. Son expérience éditoriale l’a conduit à observer qu’une importante proportion de chercheurs préféraient retirer leur proposition d’article plutôt que de joindre les données brutes réclamées.

Un book sprint sur la reproductibilité : Publié en 2019, le document est le fruit d’une collaboration originale entre des chercheurs issus de plusieurs disciplines (biostatistiques, physique-chimie, informatique, neurosciences) et l’URFIST de Bordeaux qui a porté le projet. L’objectif était “d’aboutir à un document à forte visée pratique conçu par des chercheurs pour des chercheurs.”

Plan S

Bibliothèque de liens : Mis en place par les principaux financeurs de la recherche en Europe (dont l’ANR), le plan S prévoit une ouverture des articles scientifiques issus de projets soutenus par les agences en question à l’horizon 2021. Le fonds national suisse pour la recherche effectue un recensement régulier de qui est publié sur le Plan S. Pas moins de 71 articles sont actuellement signalés. 

Autres ressources

Le profil scientifique de la France : Dans l’édition 2019 consacrée à l’ESR, une rubrique entière est dédiée à la « position scientifique et technologique de la France dans la recherche en chimie ». Elle apparaît comme le 9è contributeur aux publications mondiales en chimie et se distingue surtout en chimie minérale et nucléaire, ainsi que dans les matériaux composites. Dans l’édition 2020, il est fait mention de l’écho élevé des publications françaises en géochimie, géophysique, astronomie et astrophysique.