Actualités - Actu en bref

Bulletin de veille – mai et juin 2024

L’actualité dans vos domaines

Un autre pas vers la science ouverte. Après l’ouverture de milliers de téraoctets de données et la publication des centaines des articles en libre accès, le CMS Collaboration (qui rassemble des membres de la communauté de la physique des particules du monde entier) a décidé de renforcer son engagement pour la science ouverte. Il vient de publier un ensemble de ‘fonctions de vraisemblance’ décrivant les premières mesures du boson de Higgs. Voici le lien pour plus d’informations.

Chimie physique et biophysique computationnelles : quel horizon 2050 ? Imaginons qu’en 2050, les simulations de dynamique moléculaire puissent être accessibles via des bases de données centralisées en accès ouvert, intégrés via des modèles IA avancés. Cet article de prospective examine le chemin à parcourir et les défis posés par l’utilisation de l’IA, ceux notamment liés à la gestion des données et aux besoins de masses de données fiables, vérifiées et structurées.

Chimie pharmaceutique : fouiller des brevets pour mieux comprendre les fonctions chimiques. Cet article présente une méthodologie permettant d’associer des fonctions (vasodilation, inhibition, analgésique…) à des molécules. Il repose sur l’utilisation de SureChemBL, base de données issue de la fouille de texte, permettant de relier brevets et molécules.  Il décrit la méthodologie de traitement des données (conversion SMILES, association d’InCHiKeys,…). Plus de 600000 fonctions sont associées à 100000 molécules.

Partage des données de laboratoire. Bien que de nombreux chercheurs adoptent sans réserve la publication en libre accès, le partage ouvert du matériel, des réactifs et des protocoles de laboratoire connaît une adoption plus lente, principalement en raison d’un manque de sensibilisation à la manière de les partager correctement. Cet article de la revue Nature propose 5 conseils pour ouvrir efficacement ces données et plusieurs témoignages de chercheurs.

Des outils dans vos domaine. Plusieurs articles présentent des outils d’analyse des données :

  • RamanSPy : un package Python open source pour l’analyse de données de spectroscopie Raman intégrative
  • MolPipeline : un package python pour traiter les molécules avec RDKit dans scikit-learn
  • SpectraFit : un outil open-source pour l’analyse spectrale interactive.
  • Chemspyd : une interface python open-source pour les plateformes robotiques de chimie et de matériaux Chemspeed
  • Des bonnes pratiques pour l’utilisation de données microscopiques et leur visualisation dans les articles.

Science ouverte

Science ouverte et génie logiciel. Dans un article publié sur Arxiv, un groupe de chercheurs dans le domaine du génie logiciel partagent leurs réflexions et leurs visions sur la science ouverte en mettant l’accent sur les produits de recherche. Les auteurs soulignent que des outils plus spécifiques sont nécessaires pour aider les chercheurs dans les différentes tâches pour l’ouverture et l’évaluation des produits de la recherche. L’un de ces outils est Anonymous GitHub, proposé et largement utilisé pour rendre anonymes les dépôts GitHub. D’autres outils utiles comprennent l’ensemble des outils de l’initiative OpenAire pour la promotion de la science ouverte, tels que EOSC et FAIRCORE4EOSC, l’European Open Science Cloud, Reprozip, ReproServer et NoWorkflow.

Un package Python pour faciliter la reproductibilité. GitHub, largement utilisé pour diffuser du code R, ne permet pas d’effectuer simplement des vérifications du respect des standards de codage ou de l’utilisabilité du code. Rworkflows s’adresse à des développeurs de tous niveaux et permet de générer, lors de changements de versions, un workflow installant les dépendances, effectuant les vérifications de l’exécution du code, et générant une documentation. Un template compatible avec l’entrepôt CRAN (The Comprehensive R archive network) est également proposé. Les composantes du workflow, décrites dans cet article, sont accessibles sur GitHub et CRAN.

Reconnaître l’ouverture des données de la recherche dans l’évaluation de la recherche. Le projet Recognise Open Research Data (recORD) mené par 12 universités suisses, a pour objectif de proposer des modalités de reconnaissance de l’ouverture des données (ORD) dans l’évaluation de la recherche. Il livre sur Zenodo une revue de littérature recensant  les questions clés, les bonnes pratiques, les projets prenant en compte les données en Suisse et à l’international. Cette problématique de l’évaluation de la recherche a fait l’objet en avril d’un rapport très complet de la LERU sur l’évolution nécessaire des métriques en Europe

Mettre en lumière la face cachée de la science : quelle incitation à publier ses résultats négatifs ? Cet article publié dans Nature souligne le rôle fondamental des résultats négatifs, tout particulièrement dans le contexte de développement de l’IA. Des initiatives ont vu le jour pour faciliter leur publication, tel le Journal of Trial & Error lancé en 2020, la plateforme développée par un chimiste de l’Université d’Hokkaido ou les travaux de Berent Smit, mais les incitations à leur publication manquent. L’article dégage des pistes d’évolution: la valorisation de la publication de résultats négatifs dans l’attribution de financement, les promotions ou l’évaluation des chercheurs, mais aussi le changement de mentalité des jeunes chercheurs.

Quels impacts de l’IA sur la nature et les méthodes de la recherche scientifique ? La Royal Society publie son rapport 2024 sur les transformations opérées par l’IA dans la recherche. Le rapport, qui s’appuie sur des entretiens et des ateliers, formule des constats (souligne le rôle des data curators et information managers) et des recommandations pour le développement d’une IA sûre et éthique; d’une recherche basée sur l’IA conforme aux principes et pratiques de la science ouverte. Il identifie des sujets émergents essentiels pour le développement de l’IA en science. De nombreux contenus (travaux sur l’IA, taxonomy of AI in science, historical review,  patent landscape review ) sont disponibles en ligne.

Le pilier logiciel de la science ouverte. Le collège Logiciel et code source du Comité pour la Science Ouverte (CoSo) a organisé un workshop « Software Pillar of Open Science » le 29 novembre 2023 : son compte rendu en langue anglaise vient d’être publié. Il identifie défis (en termes de compétences, d’infrastructure, de politique, d’incitation…) et solutions pour permettre une reconnaissance et une visibilité accrues des codes et logiciels. Il souligne notamment le rôle que pourraient jouer les initiatives du BSO, d’ADORE Software ou le projet SoFair, par exemple.

Le service de suggestion de dépôts dans HAL : un premier bilan. Dans son dernier billet de blog, le CCSD fait un bilan à 6 mois du service de suggestions de dépôt dans HAL : 8 000 publications en texte intégral, identifiées par un DOI et déjà en libre accès ont pu enrichir le portail HAL. Les communautés des sciences du vivant (35% des dépôts importés) et de la physique (18% des dépôts importés) sont les plus actives dans cet enrichissement.

Publication scientifique

Quel impact de l’open access ? Sur la base d’un corpus de 61 études empiriques, le TIB et le ministère de l’Enseignement supérieur et de la recherche allemand, ont réalisé une synthèse sur l’impact de l’open access pour la recherche scientifique – dont la traduction anglaise vient d’être publiée. Il relève, par exemple, l’impact positif sur le transfert des connaissances, sur l’usage (téléchargement) des publications et les inégalités générées par le système des APC. Les auteurs soulignent un manque d’enquêtes ou de résultats probants sur plusieurs dimensions (impact sur la carrière académique, sur la citation, ou la qualité des publications).

Les effets pervers du business model de la publication académique. Sur la base des réseaux de citations issus de plus de 8000 revues scientifiques des 20 plus grands éditeurs académiques, ce preprint met notamment en évidence la stratégie singulière de deux d’entre eux : MDPI et Frontiers. Leurs revenus dépendent des volumes d’APC payés par les auteurs et leur réputation des Impact Factors calculés. Les auteurs relèvent un taux d’auto citation particulièrement élevé pour les articles entrant le calcul des IF pour ces deux éditeurs.

Rétractations : la réaction des physiciens. Un article de la MIT Technology Review relate que, confrontés à des données mal documentées ou falsifiées et à une vague de rétractations en physique, les chercheurs et les rédacteurs en chef des revues se sont réunis à Pittsburgh pour trouver la meilleure façon de procéder. Au sein de l’International Conference on Reproducibility in Condensed Matter Physics, des discussions détaillées dans l’article ont permis de proposer des lignes directrices que les chercheurs, les revues et les organismes de financement pourraient suivre pour donner la priorité à la reproductibilité. Il ressort que l’accès aux données est un enjeu important pour l’examen des articles, sous réserve qu’elles soient suffisamment documentées.

Guides et ressources

De nombreuses nouvelles ressources sont disponibles :

  • Sur Recherche Data Gouv :
    • Une bibliothèque de fiches pratiques concernant tout le cycle de vie des données accessible ici. Elles ont été produites par les ateliers de la donnée
    • Une page dédiée aux entrepôts de confiance proposés par le Collège des Données de la recherche du Comité pour la science ouverte (liste évolutive)
  • Sur DoraNum :
    • 9 fiches synthétiques correspondant aux grandes thématiques (enjeux, stockage, diffusion, etc.) ont été traduites en anglais
    • A travers une fiction, sont traités les droits d’auteur pour les logiciels et codes sources
    • Les principes FAIR adaptés aux logiciels avec un guide restituant les questions à se poser et une checklist téléchargeable
    • Une série de trois vidéos sur les datapapers, co-produites par EOSC-Pillar
  • OSCAR (Ouvrir la Science, Connaissances à AcquériR), les 3 premiers modules de la formation à la Science ouverte d’INRAE, sont désormais accessibles en libre accès sur la plateforme Callisto
  • Une nouvelle version de ScanR, le moteur de recherche qui valorise les données publiques de la recherche
  • Dans “Parlons science ouverte”, le 8e chapitre “Ouvrir ses publications et préserver ses droits : quelles solutions ?” proposé par le CCSD aborde deux voies complémentaires  pour s’assurer du respect du droit à la publication en libre accès.

Il est possible de s’inscrire au second MOOC Reproducible Research II: Practices and tools for managing computations and data

Commentaires

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *