Bulletin de veille – Février 2023
L’actualité dans vos domaines
Science ouverte en informatique moléculaire : un moteur de la transformation numérique. Cet article propose une revue des outils de la science ouverte en informatique moléculaire. Outre le développement d’entrepôts et bases de données (PubChem, ChEMBL, ou encore Open Reaction Database (ORD) en chimie de synthèse) ouvrant les données selon des standards FAIR, les auteurs soulignent l’importance de l’ouverture des codes destinés à traiter ces données (par exemple Python-based Informatics Kit for Analysing Chemical Units, PIKAcHU) et de formats de représentations moléculaires tels (DeepSMILES, SELFIES) pour le développement de l’informatique moléculaire. Les infrastructures numériques de gestion de données telle nmrXiv, à la fois entrepôt de données et plateforme d’analyse, développée par le consortium allemand NFDI4Chem pourront permettre une massification des données. Les techniques de reconnaissance optique de structures (DECIMER Image-Transformer, Img2Mol ou encore SwinOCSR) constituent un autre levier de développement des volumes de données mises à disposition des communautés en chimie.
De l’importance de la diversité des données. L’utilisation de l’apprentissage automatique en synthèse organique requiert des données dont les conditions expérimentales, les réactifs utilisés et les rendements obtenus soient suffisamment diversifiés et non biaisés. Ces conditions peinent à être remplies, comme l’illustre ce billet qui souligne également l’importance des résultats négatifs, trop peu publiés: « We now realize that these negative results are gold, not garbage, when it comes to training machine-learning models ».
Nouveau format de données dans les sciences catalytiques. Une équipe dirigée par le professeur Jürgen Pleiss, de l’Institut de biochimie et de biochimie technique de l’Université de Stuttgart, a développé EnzymeML, un nouveau format d’échange de données pour la biocatalyse et l’enzymologie. Il s’agit d’un format standard ouvert, librement accessible, basé sur XML, qui respecte les principes FAIR. L’objectif principal de ce nouveau format est de faciliter le stockage et le transfert des données de cinétique enzymatique dans une gamme variée de cahiers de laboratoire électroniques, d’outils logiciels et de bases de données. Le format a été présenté dans un article récent publié dans Nature Methods. Un article sur phys.org a également été consacré à EnzymeML.
Préservation des données en physique des hautes énergies et principes FAIR. Un article publié sur ArXiv, présente le concept de « préservation des données dans la physique des hautes énergies ». Il comprend tous les aspects liés à une activité productive d’analyse des données : données numériques, métadonnées, publications, logiciels, bases de données, documentation, etc. Les objectifs d’un système de préservation des données répondent aux principes FAIR. En effet, les données doivent être faciles à trouver et accessibles, et donc réutilisables. En outre, les politiques de science ouverte mises en œuvre pour les ensembles de données dans la physique des hautes énergies sont essentielles pour la robustesse à long terme de la préservation des données. Une analyse plus approfondie et l’état de la préservation des données dans la physique des hautes énergies sont présentés dans l’article.
L’intelligence artificielle et la protection des données. Organisée par le CERN avec la collaboration de l’agence spatiale européenne (ESA), le laboratoire européen de biologie moléculaire (EMBL) et l’observatoire européen austral (ESO), la Journée de la protection des données 2023 s’est déroulée en ligne le 30 janvier et le thème de cette année était l’intelligence artificielle. Un point important qui est ressorti au cours de la journée est la nécessité de réglementer l’utilisation de l’intelligence artificielle afin qu’elle reste éthique et respectueuse de la vie privée de toutes les personnes qui l’utilisent. L’enregistrement est désormais disponible sur la page de l’événement.
Propriété intellectuelle et gouvernance de l’intelligence artificielle. Cet article propose un modèle de gouvernance (CAITE, Copyleft AI with Trusted Enforcement) pour un usage éthique de l’intelligence artificielle, via la création d’une licence d’usage éthique de type Copyleft qui serait associée à l’utilisation des données et des modèles. Il reposerait sur un système de type tiers de confiance avertissant les usagers et développeurs potentiels d’éventuels problèmes éthiques associées à l’utilisation de tel ou tel jeu de données.
AI4Green : un ELN à code source ouvert pour une chimie écologique et durable. Cet article publié dans Chemarxiv présente le cahier de laboratoire électronique AI4Green, adapté spécifiquement à la chimie organique. Il propose des fonctionnalités classiques d’archivage et de partage de données mais aussi des outils de mesure d’impact écologique. Au fur et à mesure que les utilisateurs planifient leurs réactions et les enregistrent, le logiciel crée automatiquement des rapports sur la durabilité, les dangers et l’évaluation des risques. Un guide des solvants associé à l’application vise à encourager la sélection de solvants inoffensifs.
Édition scientifique
Droit d’auteur: la Coalition S incite à la vigilance. L’éditeur Taylor and Francis propose aux chercheurs publiant dans une de ses revues une page d’information sur le droit d’auteur « Understanding copyright for journal authors ». La Coalition S reprend chaque article en soulignant des points d’attention ou de vigilance et en relevant les points problématiques (par exemple, sur les licences proposées par défaut). L’enjeu est que les auteurs soient conscients de ce qu’ils cèdent comme droit à leur éditeur : c’est à eux seuls de choisir comment ils souhaitent diffuser leur œuvre. La recommandation, présentée en conclusion, est cohérente avec la position de la Coalition S, de l’UNESCO et de l’association des universités européennes (EUA) : les chercheurs doivent conserver leur droit en adoptant par exemple une licence non exclusive de publication (LTP), souvent peu mentionnée par les éditeurs
L’évaluation par les pairs en débat. Deux articles publiés respectivement dans Nature et le Times Higher Education questionnent le système de revue par les pairs. Les chercheurs interrogés sur leurs activités d’évaluation – non rémunérées -, les jugent chronophages, suscpetibles de retarder l’avancée de leurs propres recherches, mais aussi valorisantes. Comment faire face aux difficultés croissantes de recrutement de reviewers ? Faut-il repenser le modèle d’évaluation par les pairs ? Faut-il avoir recours à d’autres modèles tels ceux proposés par PCI ou review commons, voire des systèmes d’évaluation élargis de type random forum reviewers ? Faut-il abandonner le peer review au risque de faire reposer la science sur une économie de l’attention ?
Registered reports. Nature encourage la publication de cette forme de publication méconnue que sont les registered reports. S’ils existent depuis plus de 10 ans, seulement 300 journaux proposent la publication sous ce format. Les registered reports se focalisent sur la publication de méthodologies de recherche rigoureuses et non sur les résultats. L’évaluation par les pairs porte sur la question de recherche posée et la qualité de la méthodologie mise en œuvre.
Shift+Open vers le modèle diamant ? Soutenues par la fondation Arcadia, les MIT press lancent le programme Shift+Open, avec pour perspective de faire basculer des revues actuellement diffusées selon un modèle traditionnel de publication basé sur l’abonnement vers un modèle de type diamant. Nick Lindsay, Directeur des revues et de l’open access chez MIT press, revient dans une interview sur les conditions de ce pilote, d’une durée de trois ans.
Clarivate ajoute le Preprint Citation Index au Web of Science. Clarivate a annoncé sur son site web début février l’ajout des preprints dans leur base de données. Les versions initiales des articles ou des résultats de recherche seront ainsi disponibles publiquement avant l’examen par les pairs. Ils seront ainsi plus rapidement accessibles et liés ensuite aux versions finales.
L’intelligence artificielle prise en compte par AIP. L’éditeur, prenant en compte l’impact potentiel des outils d’intelligence artificielle comme chatGPT sur la publication scientifique, a mis à jour sa page “Author Policies and Ethics”. Il est recommandé aux auteurs de mentionner l’utilisation de ce type d’outils aux éditeurs et aux reviewers. Tous les co-auteurs de l’article sont tenus pour responsables des éventuelles erreurs générées par les modèles basés sur l’IA et sont tenus de vérifier le contenu produit. Ces recommandations seront mises à jour en fonction des évolutions des outils et des pratiques.
Institutions
Rencontre entre Software Heritage et l’Unesco. Le symposium annuel de Software Heritage s’est tenu au siège de l’UNESCO à Paris le 7 février. L’événement s’est concentré sur plusieurs dimensions pertinentes pour les archives du patrimoine logiciel : reconnaître le logiciel comme un objet de recherche de premier ordre dans l’écosystème de la science ouverte; le rôle de l’archive Software Heritage pour la préservation de la culture et l’enseignement des compétences numériques ; l’innovation pour l’industrie et l’administration. L’enregistrement de cet événement est désormais en ligne sur le canal YT de l’UNESCO.
INRAE : retour sur le Plan Données pour la Science. Michaël Chelle, chargé de mission « numérique » et Hadi Quesneville, administrateur des données, algorithmes et codes à INRAE reviennent dans une interview à deux voix sur les ambitions du Plan données pour la Science 2022 – 2024 d’INRAE. Création de référents données de proximité pour accompagner les chercheurs sur les questions de sensibilité des données ou de propriété intellectuelle; mise en place d’un plan de formation permettant la montée en compétences des équipes; création d’e-infrastructures facilitant le partage des données organisées de façon thématique : ce ne sont que quelques exemples illustrant les différents axes du plan.
Retour sur les Open Science Days de l’UGA. Ces journées se sont tenues en décembre 2022 et portaient sur les codes et logiciels. Les vidéos des interventions ainsi que les supports sont désormais disponibles sur le site de la conférence en parcourant le programme.
Études et enquêtes
Intérêt des plans de gestion de données machine actionables. Une étude publiée dans le Data Science Journal compare deux méthodes de vérification de la conformité des plans de gestion de données (PGD) aux exigences des agences de financement. Les PGD rédigés dans un format lisible par des machines peuvent être évalués automatiquement via des techniques d’exploration de textes. L’objet de l’étude est de vérifier si l’automatisation peut permettre d’évaluer les PGD efficacement et si les informations fournies sont différentes des évaluations manuelles.
Tentative de typologie des citations dans les publications. L’impact scientifique d’un article sur la recherche est souvent mesuré selon le nombre de ses citations par d’autres chercheurs. Cette pratique est réductrice puisqu’un article peut être repris pour de nombreuses raisons. La citation peut être neutre et reprendre uniquement la méthodologie employée ou même négative et constituer une critique de l’article original. Il serait intéressant de pouvoir identifier facilement pourquoi un article est cité. Dans cette optique, le Journal of Cheminformatics a lancé il y a deux ans le projet CiTO pour l’adoption d’une pratique consistant à annoter les citations avec leurs intentions. Le chercheur devait caractériser chaque citation sous forme de texte supplémentaire annexé à chaque entrée bibliographique. La méthodologie du projet est détaillée dans cet article. Le journal fait le bilan de cette expérience deux ans plus tard et montre qu’elle a suscité l’intérêt de nombreux chercheurs et pourrait être appelée à se développer. Elle fait d’ailleurs écho à d’autres initiatives de ce type, comme Scite.ai par exemple.
La mauvaise gestion des données et intégrité de la recherche. Les mauvaises pratiques de recherche (falsifications, fraudes, fabrication de résultats) sont souvent liées à une absence de gestion des données comme l’indique cet article. Le lien entre les deux n’est pourtant pas toujours clairement identifié. Cette étude se donne pour objectif de montrer l’impact d’une mauvaise gestion des données sur la recherche scientifique. Cette prise de conscience devrait permettre d’établir des politiques institutionnelles afin d’en limiter les effets.
Guides et ressources
Nouvelles ressources DoRANum. À partir de février, la plateforme DoRANum propose deux nouvelles ressources. Quel(s) outil(s) de rédaction de plan de gestion de données utiliser ?, un comparatif détaillant les avantages et les limites de trois outils de rédaction de plan de gestion de données : DMP OPIDoR, Argos, Data Stewardship Wizard. La visualisation des données : quelques exemples, exemples d’entrepôts de données incluant la visualisation, ainsi que des outils permettant de visualiser les données.
Guide d’application de la Loi pour une République numérique pour les données de la recherche. Le Ministère de l’enseignement supérieur et de la recherche vient de publier sur son site Ouvrir la science ! un guide visant à proposer des recommandations pour l’application de cette loi : les conditions de dépôt des publications en archive ouverte et les modalités de diffusion et de réutilisation des données de la recherche.
Faire entrer la science ouverte dans son projet ANR. Le groupe de travail Science Ouverte-Données du consortium Couperin vient de publier un guide permettant aux chercheurs de prendre en compte les enjeux de la science ouverte dès la phase de montage de leur projet. Il est en effet souvent plus difficile de partager les données de recherche si les conditions de diffusion n’ont pas été anticipées en amont. Ce guide reprend étape par étape les éléments de la proposition détaillée à fournir à l’ANR et propose des préconisations et conseils pour diffuser les données le plus largement et facilement possible.
Commentaires