Actualités - Actu en bref

Bulletin de veille – Novembre et Décembre 2021

L’actualité dans vos domaines

Une base de réactions chimiques en open access : focus sur ORD. L’initiative open source ORD (Open Reaction Database) développée par des chercheurs du MIT et décrite dans un article du JACS, a pour objectif de faciliter l’accès et l’échange des informations de réactions chimiques grâce à un schéma structuré et une base de données en ligne. Le schéma de métadonnées ORD permet de décrire finement toutes les informations relatives à une réaction grâce à une hiérarchie précise d’objets (substances participant à la réaction, conditions d’expérimentation, observations et résultats, commentaires libres). Pour un aperçu synthétique et efficace, vous pouvez aussi consulter cet article résumant les enjeux de la base ORD, publié sur le site du réseau français de chimie théorique. 

CNRS : le nouveau centre sur l’intelligence artificielle copiloté par un chimiste. Jamal Atif, chargé de mission IA et infrastructures numériques à l’INS2I ainsi qu’Alexandre Legris, directeur adjoint de l’Institut de Chimie, ont été nommés coordinateurs du défi IA du CNRS. Les premières activités du centre débuteront en janvier 2022, l’un des objectifs étant de familiariser les scientifiques avec l’IA, domaine mobilisant en France encore trop peu de spécialistes.

Développement de l’intelligence artificielle en chimie. A l’occasion d’un webinaire organisé le 1er décembre, IBM et Thieme ont fait un point d’étape sur leur projet d’outil de prédiction réactionnelle. Sur 480 000 réactions pré-sélectionnées dans la littérature scientifique, 318 000 ont été retenues pour entraîner l’algorithme, après avoir subi un traitement : élimination des réactions comprenant plus d’un produit, encodage de la réaction au format Smiles, suppression des doublons etc. Les données ont ensuite été structurées grâce au format XML (pour le contexte de la réaction) et RDF (pour la structure chimique et les propriétés). Les intervenants ont insisté sur la qualité des données, condition indispensable pour que la prédiction soit la plus exacte possible. 

Identifier la viralité d’un composé grâce au machine learning. Publié dans Molecular informatics par 4 chercheurs indiens de l’Institut Nord-Est de Science et de Technologie de Jorhat, cet article établit une comparaison des performances de 7 algorithmes de machine learning dans la prédiction de la viralité ou non d’un composé chimique. 2358 composés issus de la base CAS COVID-19 antiviral SAR dataset ont été croisés avec 1157 descripteurs calculés avec le logiciel Mordred pour entraîner les algorithmes. Deux algorithmes ont ainsi montré une précision de prédiction de plus de 90% lors de tests avec des jeux de données externes.

Découverte de nouveaux ligands en catalyse grâce au machine learning. 21 ligands phosphines pouvant potentiellement former des complexes dinucléaires de palladium(I) ont été identifiés grâce à un algorithme de machine learning non supervisé. Les chercheurs, qui rendent compte de leurs travaux dans cet article publié dans la revue Science, s’appuient sur une base existante de 348 ligands munis de leurs descripteurs, la LKB-P (ligand knowledge base for monodentate P-donor ligands), sur laquelle des méthodes de clustering additionnelles ont été réalisées (k-means) afin de mieux regrouper les données selon leurs propriétés chimiques. L’utilisation de méthodes de machine learning rend la découverte de ligands moins hasardeuse peut-on lire dans Chemistry World, celle-ci reposant habituellement sur du tâtonnement. 

OpenNeuro, une plateforme de données en neurosciences en accès ouvert. Signalée fin novembre dans la revue Nature Neurosciences, la plateforme OpenNeuro est décrite en détail dans un article d’eLife. La possibilité de réutiliser les 600 jeux de données indexés est très large car la licence CC0 (assimilable au domaine public) est affectée par défaut. Les données sont renseignées selon un standard prédéfini (BIDS). Les chercheurs souhaitant utiliser l’architecture de cette base de données tout en conservant la maîtrise de l’hébergement peuvent le faire car le code est ouvert. Les auteurs estiment que 165 articles s’appuient en partie sur les jeux de données publiés sur OpenNeuro depuis son lancement.

Déposer ses données en ligne : recommandations et entrepôts. Publié dans BMC Research Notes début novembre, cet article fait le point sur les éléments à prendre en compte lors du partage de ses données de recherche : le choix d’un entrepôt disciplinaire ou généraliste, le choix des licences de réutilisation ou encore l’utilisation de standards de métadonnées. Une liste de 8 entrepôts est notamment proposée, reflétant une palette resserrée de choix possibles en fonction des données produites. Est par ailleurs mentionné le format MIAME (Minimum information about a microarray experiment), qui permet de structurer les données issues d’analyses de puces à ADN. Cela donne la possibilité à d’autres chercheurs d’exploiter facilement les données de manière indépendante.

Peer reviewing

Deux revues d’ACS optent pour un peer reviewing plus “transparent”. Une initiative pilote est lancée par l’American Chemical Society pour deux de ses revues : ACS Central Science et The journal of Physical Chemistry Letters. Si l’auteur fait ce  choix, les échanges avec les reviewers apparaîtront en tant que supporting information après publication de l’article. Les reviewers restent en revanche anonymes, sauf avis contraire de leur part.

Le peer reviewing représenterait 130 millions d’heures non payées en 2020. Selon une étude publiée dans BMC et s’appuyant sur le le salaire moyen des chercheurs, le temps consacré au peer-reviewing en 2020 représenterait 1,5 milliard de dollars aux Etats-Unis, plus de 600 millions de dollars en Chine et environ 400 millions de dollars au Royaume-Uni. Un article accepté requiert en moyenne six heures de relecture et révision. Un travail assimilé à un « don », puisque non rémunéré.

Publier les commentaires des reviewers n’aurait pas d’influence sur le taux de citation des articles. C’est la conclusion des auteurs de cet article publié dans la revue Scientometrics. Basés sur 2293 articles de la revue Nature Communications publiés entre 2016 et 2017, les résultats obtenus par régression linéaire ne montrent aucune différence significative sur les citations entre les articles issus de l’open peer review et les autres. Les auteurs indiquent toutefois qu’ouvrir les échanges entre les correcteurs et les auteurs peut renforcer la confiance portée à un article.

Evaluation des chercheurs 

La science ouverte bousculerait les pratiques d’évaluation des chercheurs. La tournure très concurrentielle qu’a pris la recherche ces dernières années a renforcé le modèle “publish or perish” dans lequel des indicateurs tels que le h-index prédominent dans l’évaluation de la recherche. Peu de place est attribuée à des résultats de la recherche plus divers comme les résultats négatifs souligne ce billet publié sur la page science ouverte de l’Institut Pasteur, ou les actions à destination du grand public, comme le signale cet article publié dans The Conversation. Des solutions d’évaluation plus qualitatives existent cependant. Un article du journal Le Monde abonde en ce sens. La valorisation reposerait alors sur le partage des données et des codes, l’application de bonnes pratiques de gestion des données de la recherche, le recours à l’open peer review, etc.

La plupart des chercheurs ne se sentent pas récompensés d’avoir partagé leurs données. C’est l’un des chiffres qui ressort du rapport de l’enquête annuelle Figshare sur les données de recherche paru fin novembre. 65% des répondants estiment que les efforts de partage de données de recherche n’ont donné lieu à aucune reconnaissance particulière. 66% des sondés disent connaître le principe des données FAIR, un chiffre en progression. L’un des principaux facteurs de non-partage des données porterait sur la crainte d’une mauvaise utilisation de celles-ci (exploitation commerciale, interprétation erronée etc.)

Edition scientifique

De nouveaux articles rétractés chez Elsevier et Springer Nature. Springer Nature rétracte 62 articles issus d’une édition spéciale, pendant qu’Elsevier en retire 165 pour Elsevier et prévoit d’en rétracter 300 de plus dans les mois à venir. Selon cet article de Nature, le problème réside dans les numéros spéciaux des revues, portant la plupart du temps sur un aspect très précis d’un domaine et nécessitant de faire appel à des reviewers spécialisés appelés “guest editors”. Des infiltrations de reviewers douteux ont conduit à l’acceptation d’articles infondés scientifiquement. L’usage de l’intelligence artificielle dans le processus de publication pourrait à terme s’avérer utile pour déceler non seulement les faux articles, mais également les mauvais articles.

Le partage des données à l’heure du Covid. Dans une enquête publiée début décembre, l’association OASPA (qui rassemble de nombreux éditeurs dont Springer et Wiley), estime que 47% des chercheurs affirment avoir partagé leurs données dans le cadre d’articles publiés sur le Covid-19. Une proportion qui refléterait une réalité trop “positive”, en raison du “biais” des répondants. Une étude espagnole, citée dans ce même rapport et menée à partir d’articles indexés dans Pubmed, tend à montrer que le partage de données reste minoritaire. Sur 6000 articles consacrés au Covid entre janvier et avril 2020, seuls 800 d’entre eux sont accompagnés de données en accès ouvert. Autre enseignement : une infime partie des articles (1,2%) présente des données réellement réutilisables, autre que le format pdf. 

L’article scientifique dans tous ses états. Objet de convoitise économique des grands éditeurs commerciaux, l’article scientifique est-il toujours le meilleur vecteur de communication de la science ? Le débat est ouvert dans cet article d’analyse de Chérifa Boukacem, professeur en sciences de l’information à Lyon 1. 

Lancement du Peer Community Journal. Portée par l’organisation Peer Community In (PCI) et appuyée par plus de 20 écoles et Universités, cette nouvelle revue en ligne publie exclusivement et gratuitement des articles évalués et recommandés par PCI, selon le modèle diamant d’open access. Le nombre de citations de l’article, base de comptabilisation habituelle du facteur d’impact, ne sera pas affiché.

“Science ouverte : du modèle économique à l’évaluation des résultats.” Les supports et vidéos du 11ème atelier Dialogu’ist, qui portait sur les modèles économiques des publications, sont désormais accessibles. Au programme notamment : un panorama des modèles économiques émergents pour les publications, plusieurs retours d’expérience sur l’application de ces nouveaux modèles et les modèles de contrat de cession de droits d’auteur. 

Institutions

Intégrité scientifique, résultats négatifs et plan de gestion des données. Le décret du 3 décembre 2021 relatif au respect des exigences de l’intégrité scientifique par les établissements publics, indique, dans son article 2, que les établissements doivent promouvoir « la diffusion des publications en accès ouvert et la mise à disposition des méthodes et protocoles, des données et des codes sources associés aux résultats de la recherche afin d’en garantir la traçabilité et la reproductibilité. Ils incitent à la publication des résultats de recherche dits négatifs.”  L’article 6 dispose par ailleurs que les établissements “veillent à la mise en œuvre par leur personnel de plans de gestion de données.”  

Une avancée légale en faveur du data mining. L’exception légale permettant aux chercheurs de faire de la fouille de textes et données (TDM) à partir de publications protégées par le droit d’auteur est enfin opérationnelle depuis l’adoption d’une ordonnance le 24 novembre. Elle facilite ainsi le recours à des logiciels de data mining dans les publications et bases de données auxquelles les chercheurs ont légalement accès (via les abonnements des bibliothèques ou lorsque ces ressources sont en accès ouvert). Les projets impliquant des partenariats entre les secteurs académiques et privés sont également concernés par cette exception au droit d’auteur. 

Création d’un observatoire de l’édition scientifique. C’est l’annonce faite le 17 décembre dans un communiqué commun des ministères de la Culture et de la Recherche. Le but est de conduire des « études […] destinées à mieux connaître le secteur des revues et ouvrages scientifiques et à aborder les enjeux de la science ouverte ». 

Mise en place d’un cahier de laboratoire électronique à l’Université de Grenoble Alpes. A l’occasion du GRICAD, une journée d’échanges a eu lieu le 30 novembre, abordant notamment l’introduction d’un nouveau service en direction des chercheurs de l’UGA. Porté par le GRICAD et le laboratoire SIMaP, le projet CAOLILA (CAhier de laboratoire Ouvert et LIbre à destination des Laboratoires), repose sur la solution libre eLabFTW. 

Vers des plans de gestion de données “machine-actionable”.  Une nouvelle version de plan de gestion de données, portée par DMP-Opidor, a été mise en ligne fin novembre. La nouveauté réside dans la mise à disposition d’un modèle de PGD structuré facilitant la saisie et les échanges d’informations. Il sera également possible d’exporter le PGD au format JSON.

Lancement de l’entrepôt de données DOREL à l’Université de Lorraine. Basé sur le logiciel open source Dataverse déjà utilisé par l’INRAE et prochainement par la plateforme nationale, l’entrepôt est accessible à tous et le dépôt de données ouvert à toutes les communautés scientifiques de l’Université de Lorraine. DOREL permet le lien entre les données déposées et des publications et un dépôt à hauteur de 50 Go. Une convergence avec la plateforme nationale est prévue à l’horizon 2024.   

L’empreinte environnementale du CERN. Le CERN, qui cherche à réduire cette empreinte environnementale, vient de publier son deuxième rapport. Le but affiché : réduire de 28 % d’ici à fin 2024 les émissions directes de gaz à effet de serre en limitant le dégagement de gaz fluorés dans les différentes expériences menées. Pour aller plus loin sur cette problématique vous pouvez consulter les travaux de Research Data Alliance.

Appel à contributions pour un colloque sur l’intégrité scientifique. A l’initiative de l’Université de Coimbra, un appel à contributions est ouvert jusqu’au 15 janvier 2022 en vue de la tenue d’un colloque international prévu en juin 2022 et intitulé : “Les nouvelles frontières de l’intégrité scientifique.” 

L’Unesco adopte une recommandation sur la science ouverte. En débat depuis l’an dernier, le texte a été adopté fin novembre. La version française est disponible ici

Guide INSA sur la science ouverte. Développé de manière commune par toutes les écoles INSA et publié fin juin 2021, ce guide de 16 pages permet d’avoir une vision complète des enjeux liés à la science ouverte. La première partie du guide porte sur les publications, la deuxième partie est consacrée aux données de recherche. Sont aussi développées 10 idées reçues sur la science ouverte.

Commentaires

Laisser un commentaire