Bulletin de veille – Janvier 2023
L’actualité dans vos domaines
Des ressources en histoire des sciences. La nouvelle bibliothèque numérique patrimoniale de l’Université de Lille vient de paraître : Lillonum, accessible également via Gallica. Portant sur des thématiques comme l’histoire industrielle et des techniques et l’histoire des sciences, elle propose plus de 200 ouvrages en chimie et en physique ainsi que des encyclopédies, plusieurs revues comme les Annales de chimie, les Annales de chimie et de physique, le Journal de physique théorique et appliquée. Plusieurs partenariats ont enrichi les collections (Centre d’Histoire des Sciences et des Techniques de l’université de Liège, Musée d’Histoire Naturelle de Lille, Centrale Lille, la Société Géologique du Nord, etc.)
“ClimatoRisques” pour mesurer l’évolution des risques naturels à travers les âges. A l’occasion de la journée mondiale du climat le 8 décembre 2022, Istex a présenté un nouveau corpus thématique, “ClimatoRisques”, pour explorer le lien entre climat et catastrophes naturelles : Ce lien existe-t-il depuis toujours ? Est-ce un fait nouveau ? Quels pays sont touchés ? Que nous enseignent les publications ? Ce corpus de 6000 documents permet de filtrer les publications notamment via le type de risques (avalanches, crues, dégel du pergélisol, érosion du littoral, recul des glaciers) ou la mention du réchauffement climatique dans les textes.
AIMSim : un outil pour faciliter le machine learning et la modélisation computationnelle. Les outils permettant de comparer des jeux de données décrivant des molécules (descripteurs, empreintes ou métriques) sont nombreux (RDkit, ccbmlib, chempf par exemple), mais souvent partiels. Le package Open source Python AIMSim présenté dans cet article propose plusieurs modules permettant d’intégrer les tâches de comparaison (d’une molécule cible au format SMILE par exemple au contenu d’une base de données), de réduction de la dimensionnalité, de clustering ou de détection de valeurs aberrantes, couplés à des outils de visualisation. Il intègre une cinquantaine de métriques utilisées en cheminformatique. Deux études de cas sont également présentées.
Un outil de conversion de données en spectrométrie de masse multidimensionnelle. MZA est un outil qui permet de traiter de multiples formats (données brutes issues de logiciels propriétaires, fichiers .d ou mzML) et de les convertir en un format ouvert binaire et hiérarchique largement utilisé (HDF5). Comme le souligne cet article, l’objectif est de faciliter l’utilisation ou le développement d’outils en Python ou R pour traiter ces données. Si les performances en termes de temps de traitement et de capacité de stockage restent perfectibles, cet outil permet de réduire l’utilisation de multiples API facilitant les tâches de développement et l’utilisation de l’IA dans le traitement des données brutes.
Principes FAIR pour les modèles d’intelligence artificielle. Les principes FAIR ont fourni un cadre pour examiner, évaluer et améliorer la façon dont on partage les données dans le but de faciliter la découverte scientifique. Des efforts ont été déployés pour généraliser ces principes aux logiciels de recherche et autres produits numériques. Dans un article publié sur ArXiv, des chercheurs proposent une définition pratique des principes FAIR dans le contexte des données et des modèles d’intelligence artificielle pour la recherche expérimentale en physique des hautes énergies. Trouvable : télécharger le modèle d’intelligence artificielle sur GitHub, GitLab ou BitBucket ; Accessible : avoir un protocole standard, ouvert, gratuit, pour récupérer un modèle à partir d’un identifiant ; Interopérable : les métadonnées décrivant le modèle d’intelligence artificielle doivent documenter de manière exhaustive tous les aspects de sa structure, de sa formation et de ses entrées ; Réutilisable : préciser les logiciels, les outils et les dépendances nécessaires pour invoquer de manière transparente le modèle d’intelligence artificielle.
L’archivage à long terme des données de la recherche. Est-ce possible de continuer à accumuler et à maintenir tous les ensembles de données pour un accès rapide, compte tenu du coût monétaire et écologique de la maintenance des entrepôts ? Pour les données définies comme froides, c’est-à-dire les données peu utilisées, on préconise généralement un stockage « froid », pour assurer leur préservation à long terme. Mais comment garantir que ces données restent toujours FAIR ? Des mesures simples sont proposées dans un article publié sur ArXiv : (i) maintenir les métadonnées en les rendant disponibles à travers de multiples sources avec le DOI (ii) disposer de mécanismes pour récupérer les données froides (iii) disposer de procédures garantissant l’intégrité physique des données froides.
2023! l’année de la science ouverte pour la NASA. La NASA a déclaré que 2023 serait l’année de la science ouverte. Tout au long de l’année, un effort concerté sera fait au sein du gouvernement fédéral pour montrer les nombreux avantages de la mise à disposition intégrale et ouverte des données et pour inciter d’autres scientifiques à rejoindre le mouvement. Quatre objectifs ont été fixés : élaborer un plan stratégique pour la science ouverte ; améliorer la transparence, l’intégrité et l’équité des revues; tenir compte des activités de science ouverte dans les évaluations ; faire participer les communautés sous-représentées à l’avancement de la science ouverte. Consultez le Guide to NASA’s Year of Open Science et la page TOPS GitHub.
Le BRGM se dote d’une politique science ouverte. Le BRGM (Bureau de Recherches Géologiques et Minières), pôle de référence national et européen pour les données du sol et du sous-sol, publie sa politique générale sur la science ouverte. Ce service, qui gère de nombreuses bases de données en accès ouvert, se donne pour objectif d’atteindre les 100% de la production scientifique en accès ouvert (articles scientifiques, rapports publics et cartes) et de développer une culture des données FAIR, pour garantir la pérennisation des données scientifiques pour les activités de recherche et d’expertise et assurer leur libre accès. Tous les projets feront l’objet de plans de gestion des données. Le portail InfoTerre qui met à disposition les rapports et les données du BRGM fera l’objet d’une refonte.
Science participative et biodiversité. Le développement de la science participative marque une transformation de la relation entre les scientifiques et la société. Les chercheurs deviennent des médiateurs, impliqués dans la coordination et la motivation des équipes de collaborateurs scientifiques non professionnels, autour de projets ayant souvent un fort impact international. Illustré de plusieurs exemples, en France (Vigie nature, Objectif Plancton), mais aussi à l’étranger (Tela Botanica, eButterfly, Walrus from Space), ce billet de blog de l’International Science Council propose un panorama de la science participative appliquée au domaine de la biodiversité.
Modèle de données FAIR pour les substances chimiques. Ce chapitre du livre Cheminformatics – Fundamentals, Recent Advances, New Perspectives and Applications propose un modèle de données FAIR. Le modèle Ambit/eNanoMapper appliqué aux substances chimiques permet de développer des outils pour la conservation des données, la FAIRification de grandes collections de données de nanosécurité, l’annotation ontologique, la conversion des données vers des standards tels que JSON, RDF et HDF5, et les notations linéaires émergentes pour les substances chimiques.
Institutions
L’UGA se dote d’une charte et d’un schéma directeur science ouverte. A la suite du schéma directeur, voté à l’unanimité par le CA le 13 octobre 2022, le conseil académique plénier du 8 décembre 2022 a adopté à l’unanimité la première version du texte de la charte science ouverte. Élaborée par des groupes de travail animés par des membres de la Commission Science ouverte présidée par la présidente du conseil académique, elle aborde quatre thématiques : les données ouvertes, codes et logiciels, les publications ouvertes, la formation, l’évaluation. En cohérence avec le schéma directeur, la charte présente donc les recommandations et les engagements de l’UGA concernant la Science Ouverte. Elle est disponible sur la page des engagements de l’UGA.
De nouveaux ateliers de la donnée ! L’entrepôt de données Recherche Data Gouv, mis à disposition de la communauté scientifique à l’été 2022, a été conçu pour soutenir les équipes de recherche dans leur travail de structuration des données pour les rendre conformes aux principes « FAIR ». Afin d’accompagner les chercheurs, différents dispositifs ont été mis en place, dont un réseau d’ateliers de la donnée. Leur objectif est d’apporter une première expertise dans la gestion des données de recherche. 4 nouveaux ateliers viennent d’être labellisés et deux autres sont sur la trajectoire de la labellisation. Retrouvez la liste des lauréats sur ce communiqué.
Lancement de la Coalition pour l’amélioration de l’évaluation de la recherche. La Coalition for Advancing Research Assessment (CoARA) rassemble un large éventail d’organisations impliquées dans l’évaluation de la recherche, notamment des organismes de financement, des autorités et agences d’évaluation, des sociétés savantes et des organisations de chercheurs. Elle vient d’élire son comité de direction et de définir son plan d’action pour 2023. La liste des membres élus est disponible sur le site de la coalition.
Le CCSD publie son plan d’action 2023. Le plan d’action 2023, validé par le comité de pilotage, concerne HAL, les épirevues et sciencesconf et il se traduit en 20 actions cohérentes avec la feuille de route, dans l’objectif d’ancrer le CCSD au sein de l’écosystème de la science ouverte à l’échelle nationale et internationale. Parmi les 20 actions retenus on peut noter : la mise en place d’une nouvelle modalité de dépôt de logiciel et de code source dans HAL, l’amélioration du référencement des financeurs liés à des publications, la nouvelle voie d’alimentation de HAL par la collecte ciblée et automatisée du texte intégral, l’évolution d’Episciences, la possibilité de lier HAL à des services de relecture de preprints et la définition de nouvelles modalités de formation des utilisateurs.
France Universités et le CNRS soutiennent la non-cession des droits d’auteurs pour les chercheurs. La stratégie de non-cession des droits (Rights Retention Strategy) permet aux chercheurs de ne plus céder de manière exclusive aux éditeurs de revues scientifiques leurs droits d’auteurs. Il s’agit d’appliquer aux travaux de recherche la licence Creative Commons CC-BY. France Universités invite les établissements d’enseignement supérieur à encourager cette pratique. Le communiqué de presse est accessible sur le site de France Universités. Parallèlement, le CNRS, dans cette interview d’Alain Schuhl, s’est aussi prononcé en faveur de cette stratégie. Cette interview fait suite à celle d’avril dernier, invitant à ne pas payer d’APC.
Politique open access et stratégie de rétention des droits : l’expérience de l’Université de St Andrews. Une enquête lancée en 2022 auprès de la communauté académique en lien avec la mise en œuvre de la version actualisée de la politique Open Access de l’Université a révélé le besoin de guidelines et d’accompagnement sur les questions de propriété intellectuelle et de stratégie de rétention des droits. Pour répondre aux interrogations des chercheurs, une page dédiée a été créée. Ce billet de blog présente les conseils et le retour d’expérience de l’Université de St Andrews.
Études et enquêtes
Closed vs. open science. Un article de la revue Anaesthesisa reprend le récit d’un projet d’enquête sur la science ouverte dans le domaine médical (science de l’anesthesie), auquel les auteurs ont fini par renoncer. Comme ils le soulignent : « Our aborted project underscores that authors might not be ready to commit to data sharing and contribute to fundamental principles of open science« . Parmi les motifs d’opposition à une démarche d’ouverture, ils relèvent : le coût représenté par l’anonymisation des données à caractère personnel, le manque de connaissance des entrepôts pertinents dans la discipline, le risque de mauvaise interprétation des données, la charge administrative nécessaire pour l’obtention des accords des comités d’éthique et institutionnels ou encore les questions juridiques associées à la propriété des données.
APC : un coût considérable. Une étude menée par le ministère de l’Enseignement supérieur et de la Recherche, fondée sur un corpus de plus d’un million d’articles publiés par des chercheurs affiliés à des institutions françaises entre 2013 et 2020, a permis de chiffrer les coûts générés par le modèle de publication en accès ouvert reposant sur le paiement par les auteurs de frais de publication ou APC. Durant cette période, les coûts d’APC ont été multipliés par trois. En 2020, le coût total des APC pour les institutions françaises était de 30 millions d’euros (c’est-à-dire que pour 25% des articles publiés en France, les auteurs ont payé un APC). En plus, l’étude estime que le coût des APC s‘établirait en 2030 entre 50 et 68 millions d’euros. Voici le lien vers l’étude complète. Les résultats sont résumés dans un poster.
Le monde de la recherche a la responsabilité de limiter les impacts environnementaux de ses activités. Cette interview de Christine Noiville résume l’avis qui vient d’être publié par le comité d’éthique du CNRS. Le rapport montre que l’impact environnemental devient une question éthique dont il convient de débattre largement.
La recherche est-elle de moins en moins innovante ? Sur la base d’un jeu de 45 millions d’articles et 3,9 millions de brevets, couvrant les 60 dernières années, les auteurs d’un article publié dans Nature (repris dans Les Echos, et faisant l’objet de discussions sur PubPeer) étudient l’évolution des réseaux de citation entre articles et brevets et celle du vocabulaire employé. Ils montrent que malgré le développement exponentiel de la production scientifique, la recherche et la technologie tendent à être de moins en moins innovantes. Ils concluent en appelant les agences de financement à prendre plus de risques dans leurs stratégies de financement : “giving scholars the gift of time needed to step outside the fray, inoculate themselves from the publish or perish culture, and produce truly consequential work.”
Édition scientifiques
SCOAP³ se lance dans les ouvrages. Après les revues, SCOAP³ (Sponsoring Consortium for Open Access Publishing in Particle Physics), a officiellement lancé un nouveau programme (SCOAP³ for Books) pour rendre les livres en physique des particules et dans les domaines connexes entièrement en libre accès. Dans ce cadre, SCOAP³ a conclu des partenariats avec plusieurs éditeurs (dont Cambridge University Press, Oxford University Press, Springer Nature, Taylor & Francis et World Scientific) pour mettre en libre accès plus de 100 manuels et livres. Rappelons à cette occasion que via SCOAP³, plus de 90% des articles scientifiques publiés annuellement en physique des hautes énergies ont été rendus gratuits pour les lecteurs et les auteurs du monde entier.
Cas de rétractation. Données dupliquées ou manipulées, plagiat, processus de revue par les pairs opaques, le magazine The Scientist propose sa sélection des 10 cas de rétractation de publications scientifiques qui ont marqué l’année 2022 dans le domaine des sciences de la vie. D’autres articles reviennent sur les nombreux cas de rétractation relevés dans la littérature relative au COVID, où des erreurs ont pu être relevées dans les données d’articles de premier plan publiés dans le Lancet. C’est au motif de la non-conformité du processus de peer review, qu’ IEEE vient de retirer plus de 400 articles publiés dans les Proceedings of the International Conference on Smart Cities and Systems Engineering entre 2016 et 2018. 10’000 cas de rétractations sont signalés dans la base de données Retractionwatch pour ce seul éditeur, qui souligne le travail de contrôle qualité qu’il a mis en place.
Utilisation de l’IA pour la rédaction d’articles scientifiques : quels enjeux ? Le recours à des outils tels ChatGPT ou GPT 3 soulève des questions éthiques. Une IA peut-elle être le co-auteur d’un article ? Un article paru dans Nature a identifié plusieurs publications citant Generative Pre-trained Transformer (GPT) comme auteur (affilié à OpenAI, la société développant cette solution), dont un exemple diffusé sur HAL. Dans une publication sur ACS Energy Letters, deux chercheurs en nanophotonique mettent à l’épreuve ChatGPT. Ils testent sa réponse à la question suivante : “Can AI write a scientific paper? Answer in two paragraphs” et s’essaient à la rédaction d’un article scientifique. Les auteurs soulignent les potentialités de l’IA pour l’exploration d’un domaine ou l’élaboration d’une revue de la littérature, mais aussi certains risques. Un guest post de The Scholarly kitchen aborde également ces enjeux en interrogeant trois experts, un éditeur et deux universitaires respectivement spécialistes du traitement automatique du langage naturel et de la science des données.
Comment détecter la fraude ? Dans une interview au quotidien Le Monde Guillaume Cabanac, chercheur en informatique à l’Université Paul Sabatier, développe son parcours et ses travaux permettant d’identifier des articles frauduleux (fake papers), produits par des papers mills. Le logiciel Problematic Paper Screen, qu’il a développé, permet par exemple d’identifier des phrases torturées ou incohérentes, souvent construites par synonymie pour éviter la détection d’expressions plagiées. Les articles suspectés font l’objet d’un signalement sur PubPeer.
Peer community in: une révolution de l’édition scientifique ? Peer Community in est un service de recommandation de preprints basé sur des évaluations par les pairs. Son objectif est d’améliorer la transparence de la recherche en mettant à disposition les articles mais aussi leurs révisions, données, codes et scripts et de limiter les coûts exponentiels des frais d’édition et d’abonnement. Même si le système d’édition traditionnel est toujours prégnant, le modèle connaît un véritable essor et pourrait devenir une alternative pour la publication d‘articles en libre accès. Cet article de The Conversation présente le service en détail.
Intégrité scientifique : mise en cause du président de Stanford. Plusieurs articles co-écrits par le Président de l’Université de Stanford ont été identifiés comme contenant des anomalies (qualifiées par PubPeer de ‘préoccupantes’) voire des manipulations d’imagerie, d’après les data integrity analysts qui ont évalué certains articles. Les investigations sont en cours. Elles pourraient durer plusieurs années d’après le Stanford Daily.
Guides et outils
ORCID : l’identifiant chercheur pour une science ouverte. La rubrique Identifiants Pérennes de la plateforme DoRANum propose une nouvelle ressource dédiée à l’identifiant contributeur ORCID (Open Researcher and Contributor ID). C’est un vidéo réalisée par l’Université d’Angers dans le cadre d’un appel à projets initié par Couperin pour promouvoir la science ouverte. Une enquête sur l’identifiant numérique ORCID, soutenue par le ministère de l’Enseignement supérieur et de la Recherche, a été confiée au réseau des URFIST. Elle est ouverte jusqu’au 3 février.
Le nouveau guide de bonnes pratiques sur la gestion des données de la recherche est paru ! Ce guide est la production du groupe de travail inter-réseaux Atelier Données de la MITI, composé de plusieurs réseaux métiers (Calcul, Devlog, Medici, QeR, rBDD, Renatis, Resinfo, RIS), du réseau SIST de l’INSU, de l’INIST, et de la Direction des données ouvertes de la recherche DDOR-CNRS et du GDS Ecoinfo. Il fait suite à un premier travail très synthétique réalisé en 2017 qui visait à établir une cartographie de l’action des réseaux en matière de gestion des données de la recherche. Ce guide v2.0 réactualisé en janvier 2023, témoigne des travaux réalisés au sein des réseaux métiers qui rendent compte de la gestion des données de la recherche tout en guidant le lecteur vers des bonnes pratiques. Il s’adresse à toute personne désireuse de se former à la gestion des données de la recherche, et son objectif est d’aider le lecteur à analyser son besoin et trouver des solutions parmi l’éventail des communications et bonnes pratiques présentées.
Commentaires