Bulletin de veille – Août 2022
- Focus : Recherche Data Gouv
- L’actualité dans vos domaines
- Institutions
- Etudes et enquêtes
- Guides et supports
Focus : Recherche Data Gouv
Le 8 juillet, a été lancé Recherche Data Gouv l’entrepôt pluridisciplinaire pour le partage et la diffusion des données de la recherche. Priorité du Plan national Science Ouverte 2021-2024 et construit avec la participation de plusieurs organismes et universités (INRAE, Lille, Lorraine, Strasbourg, UGA, …), Recherche Data Gouv développe « un écosystème de services d’aide à la préparation et la diffusion des données de recherche sur tout le territoire ainsi qu’un dispositif de publication et de signalement des données de la recherche. » Il est donc désormais possible de rechercher ou déposer des jeux de données. Des guides et des “classes virtuelles” permettent de s’approprier la démarche. Les établissements qui le souhaitent peuvent ouvrir un espace institutionnel sur la plateforme. Pour aller plus loin, il est possible de consulter le communiqué de presse, lire le discours de la ministre ou de regarder la vidéo de l’inauguration de Recherche Data Gouv.
Au-delà du portail, des services d’aide sont mis en place pour la communauté et continueront à se développer sur tout le territoire : les centres de référence thématiques (dont le Centre de Données astronomique de Strasbourg), les centres de ressources (DoraNum, Opidor) et les ateliers de la donnée. Les ateliers sont le point d’entrée de proximité et apportent une aide concrète pour toute question sur la gestion et à la diffusion des données de la recherche. Cinq universités ont vu leur dispositif d’accompagnement de la donnée labellisé. De nouvelles labellisations auront lieu au cours des prochains mois via des appels à manifestation d’intérêt.
L’actualité dans vos domaines
La revue Nuclear Fusion rejoint le modèle de publication Gold. A partir de janvier 2023, la revue Nuclear Fusion, de l’International Atomic Energy Agency (IAEA), pratiquera l’Open Access via le modèle payant du Gold, basé sur le versement de frais de publication par les auteurs (APC) de £2000. Par contre, les chercheurs des pays considérés comme étant à faibles revenus par la Banque Mondiale, peuvent bénéficier de la publication en libre accès avec une réduction de 75 % des APC.
Augmentation des données accumulées au LHC. Le 5 juillet 2022 la nouvelle campagne du LHC, l’accélérateur géant de particules du CERN, a démarré. Le nombre de collisions de protons par seconde sera démultiplié, de quoi augmenter significativement la quantité des données accumulées. La production de cet énorme volume de données, nécessitera l’adaptation de toute la chaîne d’analyse des expériences mais également des capacités de calcul et de stockage des grands centres, comme celui de Lyon, qui constitue l’un des 13 sites principaux qui composent la grille mondiale abritant à lui seul environ 10 % de l’ensemble des données du LHC. Vous trouverez ici plus d’informations.
L’apprentissage automatique en débat chez les chimistes de synthèse. Un article de Chemical & Engineering News s’est fait l’écho de controverses autour de l’utilisation de l’apprentissage automatique en chimie de synthèse, sur Twitter notamment. Les données utilisées pour alimenter l’apprentissage automatique sont questionnées : l’accessibilité et la qualité manquent. Les sources actuelles sont en partie biaisées, car reposant sur des sources issues de l’US patent et Trademark office, qui ne reprennent pas les réactions impossibles. Comment les algorithmes peuvent-ils apprendre des réactions qui ne fonctionnent pas , si les résultats négatifs ne sont pas publiés ? Enfin les données pour être utilisables doivent être traçables, accessibles dans un format que les algorithmes d’apprentissage automatiques peuvent utiliser, diffusées sur des plateformes ouvertes telles Open Reaction Database ou ioChem-db. Un autre article est centré sur l’apprentissage automatique, avec un focus cette fois sur les sciences des matériaux.
Les outils de l’apprentissage automatique en chimie médicinale. Un article de Future-Science revient sur les apports des méthodes d’apprentissage automatique pour l’étude de traitement de pathologies complexes. Condition pour l’utilisation de ces méthodes ? Le développement des bases de données publiques compilant un grand nombre de données expérimentales et comportant des métadonnées renseignant les protéines cibles identifiées. Sans des jeux de données ouverts, riches et de taille raisonnable, les modèles d’apprentissage automatique ne pourront apprendre !
De l’importance des résultats négatifs en chimie de synthèse. Un article publié par une équipe de l’Universität Münster dans la revue Angewandte Chemie International souligne l’importance des résultats négatifs dans l’élaboration de modèles prédictifs en chimie médicinale ou en chimie des procédés. Les résultats des expériences à faible rendement sont souvent négligés et non publiés, alors qu’ils permettraient d’éviter de dupliquer les expériences et, comme le démontre l’article, d’améliorer la prédictibilité des modèles. Des données accessibles, publiées dans des formats standards, susceptibles d’être comprises par des humains et traitées par des machines : les auteurs invitent la communauté des chimistes de synthèse à s’emparer de ces enseignements pour améliorer la diffusion des résultats expérimentaux.
Institutions
Doctorants : un nouvel arrêté pour sensibiliser à la science ouverte et l’intégrité scientifique. L’arrêté du 26 août 2022 modifiant l’arrêté du 25 mai 2016 fixant le cadre national de la formation et les modalités conduisant à la délivrance du diplôme national de doctorat recommande dans son article 3,que les écoles doctorales “sensibilisent les doctorants aux enjeux de la science ouverte et de la diffusion des travaux de recherche dans la société pour renforcer les relations entre les scientifiques et les citoyens”. Par ailleurs, dans son article 10, l’arrêté précise les mesures concernant le respect de l’intégrité scientifique. L’article 16 prévoit un serment prêté par le docteur à l’issue de la soutenance et l’engageant à respecter les principes et exigences de l’intégrité scientifique dans la suite de sa carrière. professionnelle. Pour accompagner l’arrêté, l’Office Français de l’Intégrité Scientifique (OFIS) publie une fiche pratique et un dossier documentaire. Cette initiative française a été reprise dans un article de Science : plusieurs spécialistes européens de l’éthique scientifique saluent cette démarche tout en exprimant leur scepticisme face à un texte jugé trop général et un serment trop formel et tardif, pour être de nature à impulser des comportements favorables à l’intégrité scientifique.
Indépendance des référents à l’intégrité scientifique. L’OFIS, l’Office Français de l’Intégrité Scientifique, vient de publier ses recommandations relatives aux modalités de déport des référents à l’intégrité scientifique (RIS). Les recommandations s’appliquent lorsque le RIS estime ne pas être en situation d’instruire une question ou un signalement de manière indépendante, impartiale ou objective, ou lorsque la question ou le signalement est susceptible de mettre en cause les organes de l’établissement ou de la fondation. Dans le cas d’un déport, les responsables des établissements et fondations concernés peuvent recourir à l’OFIS pour lui demander de leur proposer un ou plusieurs noms de référents ad hoc ou d’experts en vue de la mise en place d’un comité ad hoc. Pour répondre à ces demandes, l’OFIS a publié une note sur la procédure à suivre.
Les États membres de l’Union européenne s’engagent en faveur de la science ouverte. Le 10 juin, les 27 États membres ont adopté à l’unanimité les conclusions du Conseil sur la réforme de l’évaluation de la recherche et la mise en œuvre de la science ouverte.Le Conseil préconise d’agir en profondeur, de façon concertée et à l’échelle européenne, sur les systèmes d’évaluation de la recherche et de privilégier une approche plus qualitative que quantitative. Il recommande le libre accès immédiat à tous les résultats de recherche (données, codes, méthodologies, protocoles au même titre que les publications), pour garantir la reproductibilité et la fiabilité de ces résultats. Cela passe par la conservation des droits de propriété intellectuelle pour les auteurs, la diversification des modèles économiques (modèle diamant, pré-prints) en cohérence avec la politique de la coalition S. Le Conseil encourage l’utilisation par ses membres de la plateforme ORE (Open Research Europe) qui permet de publier rapidement les travaux de recherche (publications, données) issus de financements européens. Le Conseil souhaite enfin favoriser le multilinguisme pour les publications universitaires européennes.
La Lettonie se dote d’une politique de science ouverte déclinée sur 3 axes : les publications en open access, les données FAIR et la science citoyenne. Pour mettre en application les principes FAIR aux données de la recherche, le pays prévoit notamment :
- la création d’un centre de services communs afin d’améliorer la gouvernance et la qualité des données
- la généralisation des plans de gestion des données (PGD) pour tous les projets financés par l’État
- à l’instar de ce qui vient de naître en France, le développement d’un portail de dépôt de données “DataverseLV”, où tous les chercheurs pourront diffuser leurs données de recherche
La politique est consultable ici.
Le peuple américain doit accéder aux résultats de la recherche librement et sans délai ! C’est dans ce but que l’Office of Science and Technology Policy (OSTP) de la Maison Blanche vient d’adresser un mémorandum aux agences fédérales pour qu’elles élaborent ou mettent à jour rapidement leur politique d’accès public aux résultats des recherches qu’elles financent. Cet accès doit être gratuit et immédiat. Les données scientifiques liées aux publications issues de telles recherches doivent elles aussi être mises à disposition du public de manière libre et gratuite et à terme, toutes les données, liées ou non à une publication. Le mémorandum recommande pour la diffusion des données de s’appuyer sur le document du National Science and Technology Council “Desirable Characteristics of Data Repositories for Federally Funded Research ”.
Reprenons les choses en main : la cOAlition S, les revues diamant, et la stratégie de non-cession des droits. Johan Rooryck, directeur exécutif de la cOAlition S, s’est exprimé lors des journées du pôle éditorial Prairial en juin 2022. Après avoir rappelé les 3 modalités de mise en libre accès soutenues par le plan S (publications dans des revues en open access, dépôt en archive ouverte, accords transformants entre bibliothèques et éditeurs) et le fait que les auteurs sont tenus d’apposer à leurs publications une licence cc-by, Johan Rooryck a expliqué “la stratégie de rétention des droits” (à partir de la 18e minute). Pour rappel, cette stratégie, soutenue par l’UNESCO, le réseau G6 de principaux organismes de recherche et par le Conseil de l’Europe, vise à permettre aux auteurs de conserver leurs droits de déposer dans une archive ouverte leur article accepté dès la publication avec une licence cc-by.
Etudes et enquêtes
Les physiciens publient-ils en Open Access ? Au cours des 5 dernières années, 14% des répondants n’ont pas du tout publié en open access et plus de 50% n’ont publié qu’un seul article par an en open access. C’est ce qui ressort de l’enquête menée par les principales sociétés savantes (IOP, APS et Optica Publishing group) auprès de 3000 chercheurs en physique du monde entier. Plus de la moitié (53%) des chercheurs souhaitent publier en open access, mais 62% d’entre eux déclarent que le manque de subvention des organismes de financement les en empêche. Ces résultats et les conclusions tirées sont à mettre en regard avec le modèle économique proposé par ces sociétés savantes : le paiement d’Articles Processing Charges (APC) pour la mise en libre accès des articles. Le paiement des APC pour des revues hybrides est en effet remis en cause par la cOAlition S et de nombreux établissements (CNRS, universités, etc.). Il est en tout cas clair que la communauté adhère largement aux principes du libre accès (64% ont déposé leurs travaux dans une archive ouverte). Parmi le petit nombre (15%) de physiciens qui connaissaient le Plan S, beaucoup (75%) pensent que le plan S influera d’une manière ou d’une autre leurs choix de publication.
Les articles “zombie” ont toujours une influence. Dans un article publié dans la revue Science, Jeffrey Brainard analyse le phénomène qui consiste à continuer à citer les articles scientifiques qui rapportent des conclusions erronées et qui ont été retirés, et comment ceux-ci peuvent encore avoir une influence. L’auteur cite le travail de la chercheuse Alison Avenell, qui a contacté les auteurs des articles où sont cités 86 articles déjà retirés. Pour la moitié des 86 papiers, l’équipe n’a reçu aucune réponse par ces auteurs. L’autre moitié a déclaré qu’il ne prévoyait pas de modifier leurs articles parce que, par exemple, la publication était trop ancienne ou qu’ils n’avaient pas le temps de procéder à une nouvelle analyse. Certains ont affirmé que l’élimination d’une seule étude rétractée n’aurait probablement pas modifié leurs conclusions générales.
FAIRification des données en recherche clinique. Selon une enquête réalisée par des chercheurs de l’Université d’Amsterdam auprès de plus de 200 chercheurs et personnels scientifiques, dans le domaine de la recherche clinique, si 60% des répondants connaissent les principes FAIR et 62,8% des chercheurs ont mené une démarche de FAIRification partielle de leurs données, 11% seulement avaient consacré de réels efforts à cette démarche, bien qu’ils l’aient estimé utile à 81%. Pourquoi ? Le soutien financier et les fonctions de soutien à la recherche et à la FAIRification des données font défaut d’après les chercheurs interrogés. Le rôle des institutions et des organismes de financement dans le développement de données FAIR est souligné par les auteurs.
Les données peuvent-elles faire émerger des communautés scientifiques ? La santé environnementale est un domaine où l’interdisciplinarité et le croisement des données (épidémiologiques, environnementales, socio-économiques…) ont un rôle clé. Comment ces communautés scientifiques interagissent-elles et quelle est la place des données dans ces échanges ? En suivant les données publiées sur DataONE et les publications dans ce domaine, six projets de recherche ont été étudiés par une équipe de chercheurs américains. Si le partage et l’échange de données ne sont pas problématiques, trouver un langage commun autour des données semble l’être davantage. Cette étude met en évidence le rôle des médiateurs de données (data mediators) capables de comprendre et d’expliquer les données, en dépassant les frontières disciplinaires.
Qu’attendent les chercheurs d’un entrepôt de données ? Un focus groupe réalisé aux États-Unis auprès de chercheurs en sciences atmosphériques et de la terre, en chimie, écologie, neurosciences et informatique révèle les attentes les plus fortes des chercheurs. Un entrepôt de données doit, selon eux, permettre de tracer l’utilisation de leurs données (la citation de leurs données…), de gérer les versions des sets de données déposés, de rechercher dans des métadonnées riches, de connaître les usages autorisés et les restrictions d’usage éventuelles pour chaque jeu de données. Cette étude révèle que les chercheurs ont besoin d’aide dans la gestion de leurs données (pour standardiser et assurer la qualité des données, pour vérifier le respect de la réglementation sur la gestion des données personnelles et sensibles). Les formations sur la gestion des données (les d’entrepôt disponibles et leurs caractéristiques respectives) pour eux-mêmes ou les équipes (doctorants, étudiants et nouveaux personnels) sont également plébiscitées.
Guides et supports
Stratégie de non cession des droits : le guide ! Le comité Science Ouverte a publié en juillet un guide pour permettre aux auteurs de “conserver suffisamment de droits sur leurs articles scientifiques et ainsi permettre leur mise à disposition en accès ouvert immédiat, quel que soit le modèle de diffusion de la revue”. Il fait donc écho à la stratégie de rétention des droits mise en œuvre par la cOAlition S (coalition des financeurs). Le guide détaille le processus à suivre pour conserver ses droits de manière très concrète et facile à appliquer. La FAQ, très riche, permet de répondre à de nombreuses questions comme les licences, le dépôt dans une archive ouverte, les recours possibles, etc.
Les logiciels dans HAL. A partir de décembre 2021, le CCSD propose à ses communautés d’utilisateurs des webinaires d’information sur les plateformes qu’il développe ou autour de la science ouverte. Dans le cadre de cette initiative qui s’appelle « Parlons Science Ouverte », le 31 mai dernier, a été proposé le webinaire ‘Les logiciels dans HAL’. Ce webinaire était consacré à la préservation des logiciels et à la collaboration entre le CCSD, l’INRIA et Software Heritage visant à l’implémentation du dépôt des logiciels dans HAL et à répondre à différents cas d’usages liés aux logiciels et aux publications. Vous pouvez trouver ici les enregistrements de toutes les séances proposées par « Parlons Science Ouverte ».
Data Papers : Quand ? Comment ? Pourquoi ? Le groupe Science Ouverte de Couperin a organisé le 5 juillet dernier un webinaire sur les datapapers au cours duquel 3 retours d’expériences ont été présentés. L’objectif était de questionner les spécificités de ce type de publication : rédaction, soumission, peer-reviewing, audience, place dans le paysage éditorial. Bonnes pratiques et conseils de rédaction étaient au cœur des échanges. Les vidéos et les supports sont désormais disponibles.
Un podcast sur les données FAIR. Ce podcast propose chaque semaine l’interview d’un acteur de la FAIRification des données et de la Science Ouverte. A noter, l’entretien avec Martin Donnelly, manager relations Open Science à la Royal Society of Chemistry. Il revient sur son expérience au sein du Digital Curation Center et sa contribution pionnière à l’élaboration de DMP online, outil accompagnant les chercheurs dans l’élaboration de leur Plan de Gestion des Données (il y a 10 ans déjà !). Aujourd’hui à la RSC, il est en charge du dialogue avec les institutions de financement autour de la Science Ouverte (cOAlitionS, …) et assure un rôle interne pour faire évoluer la culture, la politique et les workflows de l’éditeur, sur les questions d’Open Access, d’ouverture des données, et de transparence des processus de peer review.
Commentaires