Bulletin de veille – Avril 2023
- L’actualité dans vos domaines
- Édition scientifique
- Science ouverte
- Codes et logiciels
- Études et enquêtes
- Guides et ressources
L’actualité dans vos domaines
Prévoir les canicules grâce aux données. Dans le contexte du changement climatique, identifier la probabilité d’occurrence des vagues de chaleur extrêmes représente un enjeu fondamental pour évaluer les risques, pour enrichir la recherche fondamentale mais aussi pour valider des jeux de données et des modèles. Un article publié en avril dans Physical Review Fluids décrit une méthodologie pour construire des modèles de prévision à partir de grands volumes de données inscrites sur un temps long (plusieurs milliers d’années) et s’appuyant sur l’intelligence artificielle et des algorithmes de simulation d’événements. Est notamment mentionné comme modèle d’apprentissage le modèle climatique Planet Simulator (PlaSim) de l’Université Hambourg.
Des données expérimentales aux métadonnées. Cet article présente les fonctionnalités d’Experimental Data Connector (XDC) un logiciel développé afin de simplifier le workflow de traitement des données et de faciliter leur réutilisation. Appliqué au domaine de la biologie de synthèse, cet outil permet la conversion des données collectées vers des modèles de données standard (SBOL), puis une publication simplifiée dans des entrepôts et sur les plateformes utilisés dans la discipline, incluant des liens réciproques.
Les résultats négatifs, essentiels en catalyse. Un article publié dans Nature Catalysis, revient sur les apports du machine learning au domaine de la catalyse, en termes notamment d’exploration et de description de catalyseurs. Les auteurs soulignent toutefois les limites méthodologiques d’approches data-driven : le manque de données mais aussi leur qualité insuffisante ainsi que les biais inhérents aux jeux de données disponibles. La faible représentation des résultats négatifs dans ces jeux de données est particulièrement problématique. Des pistes et initiatives sont proposées par les auteurs afin que ce type de résultats soit pleinement pris en compte.
Les données des cahiers de laboratoire pour prédire le rendement chimique. Le développement de méthodes prédictives est un objectif de longue date de la chimie informatique. La prédiction des rendements des réactions chimiques est une tâche particulièrement difficile car elle est influencée non seulement par les variables de la réaction étudiée, mais aussi par toutes les réactions secondaires possibles. Cet article présente comment utiliser les données provenant des cahiers de laboratoires électroniques d’une grande entreprise pharmaceutique pour l’entraînement de modèles d’apprentissage automatique pour les prédictions de rendement. Un Jupyter notebook permet d’automatiser la curation de l’ensemble de ces données.
Workflows ouverts en chimie informatique. Dans un numéro spécial consacré aux workflows, le Journal of Cheminformatics présente différents exemples d’utilisation d’outils tels que KNIME, Jupyter notebooks ou Galaxy. Un article introduit l’importance et les enjeux de la publication de workflows en accès ouvert, accompagnant la publication de données et de manuscrits, dans une perspective de reproductibilité.
Le Big Data et les principes FAIR. De nombreux domaines de recherche – notamment la physique des particules, l’astronomie, le génie chimique, la climatologie, la génomique et la science du synchrotron – ont connu leur propre révolution en matière de big data. Des nouveaux défis et de nouvelles opportunités en matière de transfert de gros volumes de données, de calcul et de gestion se sont présentés. Les principes FAIR ont joué un rôle dans cette révolution. Ils mettent spécifiquement l’accent sur l’actionnabilité des machines, c’est-à-dire sur l’amélioration de la capacité des systèmes informatiques à trouver, accéder, interopérer et réutiliser automatiquement des données sans intervention humaine. Dans un article publié sur Histochemistry and Cell Biology, les auteurs donnent un aperçu de la révolution actuelle du big data dans le domaine de la microscopie électronique.
Édition scientifique
Édition scientifique en libre accès : la journée du Centre Mersenne. Le Centre Mersenne, infrastructure d’édition en libre accès de revues selon le modèle diamant, a organisé le 28 mars une journée autour de l’édition scientifique en libre accès et de ses évolutions. Plusieurs intervenants ont notamment décrit le processus de reviewing et de mise à disposition des rapports de reviewing : par exemple dans la revue Open Geomechanics (qui accepte les résultats négatifs ) et pour Peer Community Journal. Tous les supports sont accessibles ici.
Rétractation. A l’instar d’autres éditeurs, Wiley et Hindawi annoncent que plus 1200 articles feront l’objet d’une rétractation ces prochains mois. Il s’agit souvent d’articles issus de “numéros spéciaux” ou suivant le “Guest Editor model” décrit dans ce billet. Une nouvelle fois, c’est l’activité à grande échelle d’une “usine à papier” (papers mills) qui est relevée. Wiley indique avoir interrompu la publication des numéros spéciaux de Hindawi entre mi-octobre et mi-janvier, ce qui a entraîné une perte de recette de 9 millions de dollars. Le Web of Science a par ailleurs retiré 19 journaux d’Hindawi de son index. Dans un billet de blog, pour contrer ces fraudes, l’éditeur évoque des mesures comme le changement de processus de contrôle et le partage d’information entre éditeurs sur les mauvaises pratiques.
Environmental Research Energy : une nouvelle revue en accès libre. Pour compléter son portefeuille de revues dans le domaine des sciences de l’environnement (Environmental Research series), l’éditeur IOP Publishing lance une nouvelle revue pluridisciplinaire en accès libre : Environmental Research: Energy (EREN). Cette revue pluridisciplinaire s’intéresse plus spécifiquement à la consommation et l’approvisionnement énergétique. Il est recommandé aux auteurs de partager leurs données et leurs codes.
Impact des revues et impact de la recherche sont-ils liés ? Cet article, tout en différenciant impact des revues, impact académique et impact de la recherche montre qu’ils sont cependant très dépendants les uns des autres. L’impact des revues est envisagé selon la définition classique du facteur d’impact. L’impact académique renvoie à la manière dont un travail de recherche fait progresser les connaissances dans un domaine. La notion d’impact de la recherche quant à elle, renvoie à son effet au-delà du monde universitaire et dans la société en générale. Ce questionnement conclut sur l’idée que le potentiel d’impact la recherche est accru par l’impact académique et même par l’impact de la revue.
Science ouverte
Le baromètre Science Ouverte de l’ANR. Dans la continuité du Baromètre science ouverte national, l’ANR vient de publier sa propre déclinaison du baromètre. Elle s’appuie sur un corpus de 35000 publications avec DOI issues des appels à projets génériques et des Programmes d’investissements d’avenir 2, 3 et 4, et du Plan France 2030 depuis 2016. « Le taux d’ouverture des publications scientifiques observées en 2022 issues d’un projet financé par l’ANR est de 87 %, soit 20 points supérieur au taux d’ouverture national, de 67 % pour la même année ». La diffusion de ces publications sur des archives ouvertes progresse, passant de 74% en 2016 à 82% en 2021. Il reste cependant une marge de progression puisque, pour rappel, les publications financées dans le cadre de l’ANR doivent être disponibles en accès libre immédiat. Côté données, « 26% des publications en 2021 issues d’un projet financé par l’ANR mentionnent le partage d’un jeu de données, 10 points de plus qu’en 2016. »
Les ambiguïtés de la politique de science ouverte. S’appuyant sur le rapport d’étape publié en 2022 et revenant sur le rapport de l’OPECST, le médiateur du livre dans son avis rendu le 13 avril estime que la promotion de l’édition scientifique française reste « insuffisamment prise en compte ». Il souligne les insuffisances du dialogue avec les éditeurs privés et les ambiguïtés des politiques menées en matière de science ouverte. Selon lui, l’édition scientifique française « souffre de messages contradictoires, voire anxiogènes, émis par les pouvoirs publics au nom de l’objectif de l’ouverture de la science ».
Codes et logiciels
Prix du code et logiciel 2023 : les candidatures sont ouvertes ! L’appel à candidature pour le prix Science ouverte du logiciel de la recherche est ouvert jusqu’au 15 mai midi ici. Les prix seront remis en novembre. Pour rappel, ce prix est inscrit dans le deuxième Plan national pour la science ouverte. Depuis 2022, tous les logiciels de recherche, quelle que soit leur discipline ou leur domaine de recherche, sont donc éligibles à plusieurs prix attribués selon 4 catégories : catégorie scientifique et technique, communauté, documentation et « coup de coeur » du jury. L’enjeu est de valoriser et faire connaître largement des logiciels prometteurs. Voici les lauréats des prix 2022. En 2023, le jury pluridisciplinaire sera présidé par Sandrine Blazy, professeure en informatique de l’université de Rennes.
Reproductibilité des calculs en Python. Retrouvez la vidéo de la présentation de Konrad Hinsen, chercheur au Centre de Biophysique Moléculaire d’Orléans et au Synchrotron SOLEIL de Saint Aubin, organisée le 11 avril 2023 par le Réseau Grenoblois autour de la Recherche Reproductible.
Analyse des caractéristiques des Jupyter notebooks dans les projets de science des données. Jupyter notebook est une application web permettant de partager du code informatique. Dans le domaine de la Science des données, elle est utilisée pour faciliter la collaboration sur des projets. A partir des Jupyter notebooks déposés sur les plateformes Kaggle et Github, cet article se propose d’étudier leurs caractéristiques afin d’améliorer leur qualité.
Études et enquêtes
Recherches participatives et données de la recherche : résultats de l’enquête. Quelles sont les pratiques de gestion et d’ouverture des données produites dans le cadre de recherches participatives ? C’est à cette question que cherchait à répondre une enquête lancée par le collège Données du Comité Science Ouverte entre novembre 2021 et février 2022. Même si l’ouverture des données produites est perçue comme un « levier important de maintien de l’engagement des participants », qui sont en attente de retour de la part des scientifiques, seuls 30% des répondants mettent leurs données en libre accès souvent ou systématiquement. 63,5% des répondants indiquent « avoir une stratégie de communication des résultats de leurs activités vers le grand public ou une démarche de vulgarisation. » Le rapport complet est à lire ici. Les données de l’enquête sont disponibles sur Recherche Data Gouv et les codes utilisés pour l’analyse des résultats de l’enquête sont disponibles ici.
Cartographie de l’organisation actuelle de l’édition institutionnelle. Le projet DIAMAS, qui vise à renforcer l’accès ouvert diamant et l’édition institutionnelle, propose une enquête destinée à comprendre le paysage de l’édition institutionnelle en Europe. L’enquête est accessible ici jusqu’au 10 mai.
Participer à l’enquête nationale sur les logiciels. Le Ministère de l’Enseignement Supérieur et de la Recherche lance une enquête visant à mieux connaître et rendre visible la production de logiciels issus de la recherche. Cette enquête permettra de réaliser un catalogue ouvert des logiciels de la recherche. Elle s’adresse à l’ensemble des contributeurs de la recherche publique française, elle comporte 42 questions et son temps de réponse est estimé à 20 min. L’outil requiert une authentification qui permet de répondre collaborativement et en plusieurs fois. L’enquête est accessible ici jusqu’au 15 mai 2023 à 12h.
Science ouverte et publication de preprints. En partenariat avec Dataseer, PLOS a lancé fin 2022 trois indicateurs destinés à appréhender les pratiques des chercheurs en matière de science ouverte. Le jeu de données utilisé couvre à présent les publications 2019-2022, soit plus de 70 000 publications. Ce billet de blog présente les indicateurs mis à jour et analyse plus particulièrement les pratiques de publication de preprints.
De la diversité des pratiques de citation et de réutilisation des données. Basée sur une enquête réalisée auprès de plus de 2000 chercheurs, cette étude analyse les pratiques de citation et les motivations des chercheurs à citer et partager leurs données, avec pour objectif de dégager des spécificités disciplinaires. Le protocole d’entretien et les jeux de données, accompagnent le preprint. Cette étude fait également l’objet d’un billet de blog.
Guides et ressources
Nouvelles ressources DoRANum. DoraNum met à disposition deux nouvelles ressources :
- Le coût de la gestion des données : comment évaluer le coût induit par la gestion des données (stockage, organisation, documentation, archivage, description par exemple) pour pouvoir en assurer le financement ? DoraNum propose quelques éléments méthodologiques et un tableau permettant de calculer les coûts
- La version 2023 du cours “Les logiciels de la recherche et leurs licences : trois visions sur un objet” (aspect philosophiques, juridiques et de politique scientifique dans la production des logiciels) est désormais accessible également sur DoraNum et HAL. Ce cours, créé par Teresa Gomez-Diaz du Laboratoire d’informatique Gaspard-Monge, aborde notamment les questions de licences, dans le contexte de la science ouverte et de plan de gestion des logiciels.
La science ouverte au CNRS. La direction des données ouvertes de la recherche (DDOR) du CNRS lance « La science ouverte au CNRS ». Cette médiathèque dédiée à la science ouverte proposera des contenus audiovisuels, des articles de synthèse abordant la politique du CNRS. Sont déjà disponibles une interview de Sylvie Rousset, directrice de la DDOR, sur l’open access et une intervention de Serge Bauin sur les nouveaux modèles économiques et les nouvelles formes de publication.
Nouvelles ressources sur le site science ouverte de l’Institut Pasteur. Dans la rubrique « on vous explique », deux nouveaux articles viennent d’être publiés : l’un consacré aux Bio.tools (catalogue ouvert de logiciels et bases de données en sciences de la vie), l’autre à la relation entre science ouverte et intégrité scientifique. Dans la rubrique « comment faire », un article présente les modalités de sélection de licences de diffusion des données de recherche. L’article « Accéder à des données sensibles ou confidentielles, c’est possible sous conditions » reprend des ressources et conférences sur l’accès aux données hébergées par le Centre d’Accès Sécurisé aux Données (CASD) ou aux données de santé du Système National des Données de Santé (SNDS).
Commentaires