Bulletin de veille – Septembre 2023
- L’actualité dans vos domaines
- Science ouverte
- Intégrité scientifique
- Édition scientifique
- Institutions
- Études et enquêtes
- Guides et ressources
L’actualité dans vos domaines
Accélérer l’adoption de la science ouverte. C’est le titre du sommet organisé par le CERN et la NASA du 10 au 14 juillet 2023, où des représentants de plus de 70 instituts des cinq continents ont participé pour réfléchir à la manière dont les organismes scientifiques peuvent promouvoir la science ouverte et accélérer son adoption. Cet événement a été organisé dans le contexte de l’initiative « 2023, Année de la science ouverte ».
OSCAR et le traitement d’un grand volume de données. Le CERN a développé le logiciel ROOT, qui est devenu la norme pour l’analyse des données en physique des hautes énergies. L’interface (RDataFrame) permet déjà de gérer de grands ensembles de données. Cependant, pour traiter le volume croissant de données qui seront générées par les nouveaux accélérateurs, il devient intéressant d’étudier une nouvelle approche, celle offerte par l’informatique sans serveur. A partir d’un premier prototype, un article décrit la création d’un nouveau backend pour RDataFrame distribué sur l’outil OSQAR, un framework open source qui supporte l’informatique sans serveur.
Vers des bots-assistants de laboratoire utilisant ChatGPT ? Des chercheurs du département de chimie de l’Université de Berkeley ont utilisé ChatGPT pour développer un workflow de fouille de la littérature scientifique conçu pour prédire les conditions de synthèse des réseaux métallo-organiques. Dans cet article, ils présentent ChatGPT Chemistry Assistant et décrivent les différents processus de traitement des données fouillées, permettant de répondre aux enjeux liés à l’utilisation de ce type d’outils dans le domaine scientifique (hallucinations, tendances à produire des informations incohérentes). Cet article a fait l’objet de plusieurs commentaires (The Decoder, Reddit).
Un microservice en python pour faciliter le traitement des données. Afin de contourner les difficultés d’utilisation et d’installation de boîtes à outils utilisées pour le traitement des données en chimie (telles RDKit, Chemistry Development Kit ou Open Babel), des chercheurs de l’université de Jena ont développé un microservice permettant également d’utiliser la reconnaissance optique de structure (OCSR) et des fonctionnalités de génération de structure. Cet article présente CPM (Cheminformatcs Python Microservice). L’API est documentée et le code est disponible sur GitHub.
Science des matériaux : « one parser, multiple formats ». Cet article, publié dans le Journal of Chemical Information and Modeling, décrit un framework destiné à faciliter l’intégration de sources de données hétérogènes en sciences des matériaux. Pour faciliter l’interopérabilité des données, ont été développés : des modèles de parsers génériques capables de gérer différents formats de données (POSCAR, XDATCAR, INCAR, OUTCAR) convertis en JSON, une interface d’accès aux données, une API, un module de description des données et une architecture de plateforme. Les codes source sont disponibles ici. Une description détaillée du fonctionnement du parser et des formats de données gérés est également accessible.
Panorama des logiciels open source pour l’apprentissage automatique en chimie. Des chercheurs de l’Université technologique Bonn-Rhein-Sieg ont analysé près de 180 logiciels open source utilisés en chimie computationnelle, ainsi que les publications associées. Pour chaque projet, ils proposent une courte description, un lien vers le code et ils précisent le type de licence associée, la disponibilité en ligne des données d’entraînement et des modèles. Dans cet article, ils présentent une synthèse et formulent des préconisations au regard des trois piliers d’un apprentissage automatique collaboratif et reproductible : open data, open code mais aussi open models.
Quels apports de la science citoyenne à l’écologie ? A partir d’une analyse bibliométrique menée sur un corpus de plus de 200 000 articles parus entre 2011 et 2022 dans le domaine de l’écologie, des chercheurs de l’INRAE étudient les spécificités éventuelles des publications utilisant la science citoyenne. Cet article présente une analyse comparée des thématiques traitées, du contenu des articles et des approches retenues.
Science ouverte
Vers plus de reconnaissance du travail nécessaire à la gestion des données ? La troisième rencontre France-Amérique du Sud sur la science ouverte a notamment abordé les défis des politiques de promotion de la science ouverte. Parmi les éléments relevés dans cette dépêche AEF : le besoin de reconnaissance du travail supplémentaire nécessaire à l’ouverture des données, le manque de prise en compte du lourd travail de description des données. Autre question clé : l’évaluation des chercheurs. L’ensemble des interventions, dont celles de Claire Giry, Antoine Petit et Marin Dacos, est disponible en ligne.
Recommandations concernant l’accès à l’European Open Science cloud (EOSC). L’initiative EOSC a pour objectif de mettre à disposition des communautés scientifiques un environnement ouvert et fiable, dédié à l’hébergement d’applications scientifiques et au partage de données. L’adaptation des applications aux services offerts est souvent jugée difficile et demande des compétences très approfondies. Le projet de collaboration EOSC-Synergy mené par 20 institutions issues de huit pays européens différents a pour objectif de faciliter l’accès à EOSC et à améliorer ses capacités. Cet article identifie les meilleures adaptations apportées à des applications, regroupées selon quatre grandes disciplines : sciences de la Terre, environnement, biomédecine et astrophysique. Il formule des recommandations pour leur intégration dans l’écosystème EOSC et traite notamment des questions d’authentification, des solutions de préservation des données et métadonnées FAIR et de la gestion des charges et des calculs.
Intégrité scientifique
État de l’intégrité scientifique en France 2023. Pour construire et partager une culture commune de l’intégrité scientifique, l’Ofis (l’Office Français de l’Intégrité Scientifique) déploie ses actions selon trois axes : observatoire, ressources, animation et prospective. A travers une vidéo, la directrice de l’Ofis Stéphanie Ruphy, présente les acteurs et les enjeux de l’intégrité scientifique en 2023 et dresse les perspectives d’évolution pour les années à venir.
La base de données Retraction Watch désormais en accès ouvert. Un accord entre The Center for Scientific Integrity et Crossref permet de transformer la base de données Retraction Watch, jusqu’ici accessible via licence, en une ressource publique en accès ouvert. L’acquisition de cette base permet d’enrichir considérablement les informations sur les rétractations disponibles via l’API de Crossref, en faisant passer leur nombre de 14 000 à 50 000 articles rétractés. Selon le Comité pour la science ouverte, cela devrait permettre à plus de moteurs de recherche scientifique, de bases de citation, de plateformes d’édition et d’outils bibliographiques d’intégrer des informations sur les rétractations d’articles, à l’instar de ce que fait déjà Zotero.
Frontiers retire près de 40 articles soupçonnés de fraude à la paternité. Le site web Retraction Watch vient de publier un billet sur l’annonce faite par Frontiers. Cette revue vient de modifier sa politique concernant les demandes de changements d’auteurs après soumission des articles. Ils ne seront désormais possibles qu’exceptionnellement et après examen approfondi. Son objectif est de lutter contre les fraudes à la paternité. De nombreuses publicités en ligne proposent en effet d’acheter la paternité d’articles publiés dans des revues de recherche scientifique et cette pratique n’est pas nouvelle.
Édition scientifique
Scopus, Dimensions et le Web of Science à l’heure de l’IA. Cet été, Clarivate a annoncé son partenariat avec l’une des entreprises pionnières de l’IA générative (AI21 Labs) ; Digital Science teste l’intégration à sa base de données Dimensions d’un assistant de recherche basé sur l’IA ; Elsevier lance Scopus AI. Ce chatbot basé sur GPT 3.5 propose un résumé des résultats de recherche ainsi que des références bibliographiques et des questions permettant d’élargir la recherche. Un article de Nature revient sur la stratégie de ces trois acteurs en matière d’IA.
L’IA générative au service de l’édition scientifique ? Deux billets de The Scholarly Kitchen reviennent sur les opportunités offertes par les large language models (LLM) à l’édition académique. Le responsable de l’Intelligent Services Group de Wiley Partners Solutions a testé les performances respectives de ChatGPT et de Google BARD pour la réalisation de différentes tâches du workflow éditorial (assistance aux auteurs, au processus de peer review, à la dissémination des contenus…). Dans ce billet, il détaille les performances et les écueils relevés lors des tests. Alors que les contenus évalués par des pairs sont valorisés par les acteurs de l’IA générative, quelles stratégies peuvent développer les éditeurs scientifiques pour générer de nouvelles sources de revenus ? Ce billet propose des pistes d’analyse de marchés à développer.
ACS rend le dépôt immédiat en green OA payant. 2 500 USD, c’est le montant des Article Development Charges (ADC), ces frais de publication d’un nouveau type censés couvrir les coûts de pré-acception de l’American Chemical Society « from initial submission through to the final editorial decision ». Cette option, réponse d’ACS à la stratégie de non cession des droits, doit permettre aux auteurs de déposer leur post-print, sans embargo, dans une archive ouverte. A noter que ce processus de “zero-embargo green OA”, se déclenchera automatiquement selon les mentions présentes sur le manuscrit ou la cover letter. Si l’auteur a payé un ADC et décide de publier la version finale de son article en open access, le montant de l’ADC sera déduit de celui de l’APC.
« It’s a deal ! » : l’Allemagne signe un accord transformant avec Elsevier. Après les accords conclus avec Springer Nature et Wiley, le consortium allemand (DEAL Konsortium) vient de finaliser un troisième accord transformant pour une durée de 5 ans (01.09.2023 – 31.12.2028) avec Elsevier. Cet accord ouvre l’accès à la quasi-totalité du portefeuille d’Elsevier (incluant The Lancet et Cell Press) pour près de 900 institutions. Le volet open access prévoit une publication immédiate en open access pour les auteurs affiliés moyennant un paiement à l’article par leur institution. L’accord prévoit un rabais de 20% sur les APC des revues full open access d’Elsevier.
Institutions
Une nouvelle feuille de route pour le consortium NFDI. Le National Research Data Infrastructure entame une nouvelle période de financement. Il envisage de financer certaines actions à long terme et au-delà de la période de financement des projets. Le travail en réseau est au cœur des activités du consortium.
DataCite lance le Global Access Fund. Afin de permettre aux organismes des régions et des communautés actuellement sous-représentées dans la science ouverte de bénéficier des services de l’infrastructure, DataCite met en place un fonds spécifique. Il financera les activités suivantes : sensibilisation, développement et intégration d’une infrastructure ouverte et des services connexes, mise en place de démonstrateurs au profit des communautés locales.
Le programme de travail 2024 de l’ERC : quelles nouveautés ? La Commission Européenne a adopté cet été son plan 2024 pour le European Research Council. Il comporte plusieurs nouveautés concernant l’évaluation des projets de recherche, le CV des candidats (un nouveau format en 4 parties incluant une dimension narrative, des éléments de contexte quant au déroulé de la carrière du PI, et les contributions apportées à sa communauté de recherche). Les principales caractéristiques de ce programme sont décrites ici et les points clés ont fait l’objet d’une présentation (accessible en ligne).
Recherche Data Gouv souffle sa première bougie ! Le dispositif Recherche Data Gouv a déjà un an. L’occasion de faire un premier bilan. L’entrepôt compte désormais 25 espaces institutionnels ; plus de 2000 jeux de données, correspondant à 36000 fichiers ont été déposés et modérés dans l’entrepôt. 288 500 téléchargements ont été mesurés. Pour aider les chercheurs à s’approprier l’entrepôt, 30 webinaires de formations ont été proposés. Le dispositif d’accompagnement des communautés s’est développé de manière considérable, avec la labellisation de 15 ateliers de la donnée, proposant un service d’aide à la gestion des données, tout au long de leur cycle de vie, ce qui représente 140 services : ces 15 ateliers, où sont impliqués 73 établissements, ne rassemblent pas moins de 340 personnes. De quoi trouver une aide appropriée pour diffuser ses données en libre accès autant que faire se peut !
Études et enquêtes
Publiez-vous des datapapers ? Un an après l’ouverture de Recherche Data Gouv, une enquête proposée par l’équipe projet de l’entrepôt cherche à caractériser les pratiques, les difficultés, et les besoins des chercheurs concernant la publication des datapapers, depuis leur rédaction jusqu’à leur soumission. Au-delà d’une meilleure appréhension des pratiques, l’enquête permettra de nourrir la réflexion sur l’évolution de l’outil de génération d’ébauche de data paper mis à disposition dans l’entrepôt Recherche Data Gouv. Elle est ouverte jusqu’au 31 octobre.
Comment les chercheurs espagnols pratiquent-ils et perçoivent-ils la science ouverte ? Menée auprès des chercheurs espagnols ayant publié en 2020-2021, cette enquête interroge les pratiques de publication en open access, de dépôt de données de recherche mais aussi les expériences de l’open peer review de plus de 500 répondants. Plus des 2/3 d’entre eux pensent que la fin des revues scientifiques est proche. Dans un contexte en mutation, les chercheurs interrogés expriment le besoin de soutien au quotidien de la part des institutions et des services de soutien à la recherche, face notamment aux éditeurs prédateurs, et aux questions juridiques touchant à la confidentialité et à la gestion des données personnelles.
Qui sont les lecteurs des publications en open access ? Mickael Peskin, chercheur en physique des particules à l’Université de Stanford, propose une méthodologie pour étudier les pratiques des lecteurs anonymes (ghost readers) d’articles publiés en open access. Ce prepint, analyse les données disponibles (pays de consultation, téléchargements) pour 7 revues publiées en « subscribe to open » chez l’éditeur Annual Reviews. Les pratiques des lecteurs abonnés via leur institution et celle des lecteurs de l’open access diffèrent-elles ? Lisent-ils les mêmes articles ?
Apprendre des résultats négatifs. Dans un article publié dans la section « Careers » de Nature, une doctorante, Jelle van der Hilst, livre ses 5 astuces pour apprendre à gérer sereinement à ses données. Un point important est de ne pas se focaliser sur les résultats positifs, c’est-à-dire des résultats qui confirment l’hypothèse de départ. Souvent, les résultats négatifs sont ceux qui, une fois vérifiés, sont les plus corrects.
Guides et ressources
SOS-PGD. Le site SOS PGD (répertoire des Services Opérationnels de Soutien à la rédaction des Plans de Gestion des Données), proposé par le groupe de travail science ouverte de Couperin, a mis à jour ses données : tout chercheur, tout porteur de projet ayant besoin d’un accompagnement à la rédaction de plan de gestion des données peut désormais trouver un service de proximité. Près de 100 services sont ainsi répertoriés.
Quelles licences choisir pour Hal ? C’est à cette question que Lionel Maurel, directeur adjoint scientifique Science Ouverte, Edition scientifique et Données de Recherche à l’InSHS du CNRS, a répondu lors d’un webinaire proposé le 30 mai au CCSD dans le cadre de “Parlons Science Ouverte”. Au travers de plusieurs cas pratiques (article, traduction, ouvrage collectif…), ont été abordés les différents usages possibles des licences, dans le contexte de la Loi pour une République Numérique et de la stratégie de non cession des droits. Le support de présentation ainsi que l’enregistrement sont désormais disponibles ici.
WorldFAIR Chemistry: rapport et supports en ligne. Dans le cadre du projet européen WorldFAIR, le work package dédié à la chimie a pour objectif de favoriser l’utilisation de standards et la réutilisation des données en chimie. De nombreux livrables et contenus ont été mis en ligne sur Zenodo : outre le rapport présentant les recommandations du groupe, une présentation réalisée lors du séminaire WorldFair, un poster présenté à la conférence de l’IUPAC (Managing Chemical Data Digitally), et une synthèse des principales interventions réalisées ces derniers mois sont accessibles.
Dép’Osez vos données ! DoraNum propose un nouveau jeu dédié à la diffusion des données et aux entrepôts de données. Comportant, sous forme de quizz, 22 questions en ligne, il a été réalisé dans le cadre de la formation « Pratiquer la Science ouverte : des services et des compétences en action » (juillet 2023). Les réponses permettent d’accéder à des informations et des outils présentés.
Commentaires