Bulletin de veille – Octobre 2022
L’actualité dans vos domaines
Médiation scientifique : les prix du CNRS. Cette année, il y a cinq chercheurs qui ont été distingués par la médaille de la médiation scientifique du CNRS. Le mathématicien Étienne Ghys, l’ingénieure Carolyn Scheurle, le physicien Julien Bobroff et les membres de la cellule parité-égalité de l’Institut des sciences de l’information et de leurs interactions (INS2I) du CNRS pour la bande-dessinée Les décodeuses du numérique, et enfin l’immunologiste Jean Claude Ameisen pour son émission Sur les épaules de Darwin.
Une base de données de matériaux thermoélectriques issue de la fouille de données. Cette base de données, publiée sur FigShare, comporte plus de 10 000 substances uniques. Elle est le résultat de la fouille de données (TDM) issues de plus de 60 000 articles scientifiques des éditeurs Elsevier, RSC et Springer. ChemDataExtractor 2.0 a été utilisé et adapté au domaine des matériaux thermoélectriques pour l’extraction des propriétés essentielles (figure de métrite, coefficient de Seebeck, conductivité électrique, etc.). Cet article détaille la méthodologie (data mining, nettoyage des données, etc.). Le code est disponible sur GitHub.
Dix échantillons qui ont marqué l’histoire de la chimie. La chimiothèque, nichée au sein du Muséum National d’Histoire Naturelle de Paris abrite une collection d’échantillons anciens qui ont marqué l’histoire de la chimie. Sa responsable, Christine Maulay-Bailly, présente une sélection dans cet article du journal du CNRS.
De l’urgence de rendre les données plus FAIR en protéomique. Ces 20 dernières années, plusieurs initiatives, dont la Proteomics Standards Initiative ont été lancées sous l’égide de l’HUPO, afin de proposer des formats standards de représentation et d’échange (ProteomXchange) des données en protéomique. Le développement de nouvelles techniques d’acquisition de données par spectrométrie de masse (Data Independent Acquisition (DIA)) rend essentielle l’utilisation effective de standards, comme le montre un article de la revue Proteomics. Sans métadonnées exhaustives utilisant un vocabulaire contrôlé, sans standardisation et sans accès aux bibliothèques de spectres utilisées, réanalyser et reproduire les résultats est impossible. L’utilisation de bibliothèques erronées peut en outre conduire à une identification incorrecte des protéines.
Pour un code de conduite pour le partage des données en génomique. Les enjeux légaux et éthiques posés par le partage transfrontalier de données en génomique, deviennent majeurs du fait de la diversité des réglementations internationales et du développement du cloud pour l’hébergement des données. Alors que la réglementation (européenne notamment) a besoin de temps pour être élaborée, les auteurs de cet article en appellent à la mise en place d’un code de conduite international pour réguler les pratiques. Ils proposent une première rédaction de ce code en annexe 2 de leur article. Ces travaux sont financés dans le cadre du projet SIENNA.
Stockage et visualisation de données pour l’analyse énergétique dans les villes intelligentes. Un groupe de chercheurs de l’université de Stuttgart souligne que la création d’outils et de plateformes à code ouvert peut aider à mieux gérer et à distribuer efficacement les données de simulation relatives à la demande énergétique des bâtiments. À partir du modèle CityGML, un format d’échange standardisé et ouvert permettant de stocker des modèles numériques 3D de paysages urbains, les auteurs d’un article publié sur Springer font une évaluation et une comparaison des méthodes alternatives pour gérer les résultats de la simulation dynamique du modèle de ville intelligentes.
La crise énergétique actuelle peut-elle arrêter la science ? Les grands instituts et les centres de recherche de toute l’Europe qui exploitent des superordinateurs, des accélérateurs et des lignes de faisceaux laser avec une grande consommation d’énergie, sont très impactés par la hausse actuelle du prix du gaz et de l’électricité. On se demande comment traiter ce problème. Une des options évaluées est de réduire le temps de mesure et le nombre d’expériences réalisées chaque année. C’est le thème abordé par deux articles publiés dans les revues Nature et Science.
Évaluation
Certificat Science Ouverte pour les doctorants. Décerné par les bibliothèques d’Université Paris Cité, en partenariat avec le Collège des Écoles Doctorales, la certification permet aux doctorants de mettre en application, dans leur travail de thèse, les principes acquis pendant le suivi du cycle de formation à la Science Ouverte. Pour la validation de la certification, les doctorants doivent présenter une application concrète de la Science ouverte à son travail de recherche. L’encodage de poèmes du 16è siècle et la publication d’un Data Paper sur des données géographiques, sont les thèmes des premières certifications décernées cet été.
La « Coalition on Advancing Research Assessment (CoARA) » ouvre une plateforme collaborative. Dans la continuité de l’Appel de Paris et des conclusions du Conseil sur l’évaluation de la recherche et la mise en œuvre de la science ouverte, la Coalition européenne “On Advancing Research Assessment” met en place un site d’information qui fédérera les travaux des membres de la coalition sur la réforme de l’évaluation. Il est désormais possible pour les différents organismes et établissements de signer l’accord sur la réforme de l’évaluation. Celui-ci recueille déjà plus de cent signataires dont une dizaine en France. Les principes et le calendrier de cette réforme sont définis et une FAQ en précise les enjeux et l’organisation. Des groupes de travail thématiques seront constitués sur proposition des membres.
Comment introduire la science ouverte dans l’évaluation des chercheurs ? Dans la lignée de DORA (Declaration on Research Assessment de 2012) et du Manifeste de Leiden, cet article élaboré dans le cadre du projet européen EUTOPIA TRAIN, explore une série de critères quantitatifs et qualitatifs qui permettraient d’introduire la science ouverte dans les pratiques d’évaluation de la recherche. Parmi les pistes discutées : la contextualisation des réalisations (publications mais aussi, données de recherche et logiciels), les CV narratifs utilisés par certaines agences de financement (SNF) et par des éditeurs (Royal Society), ou les Openness Profiles.
FAIRisation
Les principes FAIR pour les logiciels de recherche. Les principes FAIR pour les logiciels de recherche ont été publiés en 2022 par le groupe de travail FAIR pour les logiciels de recherche (FAIR4RS), qui a été joint par la Research Software Alliance (ReSA), Future Of Research Communications and E-Scholarship (FORCE11) et la Research Data Alliance (RDA). 1 – Les logiciels et les métadonnées qui leur sont associées sont faciles à trouver, tant pour les humains que pour les machines ; 2 – Les logiciels et leurs métadonnées peuvent être récupérés via des protocoles standardisés ; 3 – Les logiciels interagissent avec d’autres logiciels en échangeant des données et/ou des métadonnées, et/ou en interagissant via des interfaces de programmation d’applications (API), décrites par des standards ; 4 – Les logiciels sont à la fois utilisables (peuvent être exécutés) et réutilisables (peuvent être modifiés, construits ou incorporés dans d’autres logiciels). Dans un article publié sur Scientific Data, trois exemples de la mise en œuvre de ces principes par des projets de logiciels de recherche sont fournis.
FAIR pour l’intelligence artificielle. Le 7 juin 2022 s’est tenu au Argonne National Laboratory un workshop intitulé “FAIR for Artificial Intelligence”. Des chercheurs de différentes communautés scientifiques, de différents pays et de background différents se sont réunis pour présenter les différents projets qui conduisent à la définition et à l’adoption des principes FAIR sur l’intelligence artificielle. FAIR4HEP, ENDURABLE, BioDataCatalyst, ne sont que quelques-unes des initiatives FAIR présentées. Les perspectives, la vision et les expériences partagées par les chercheurs ont été rassemblées dans un article disponible dans Arxiv.
Principes FAIR pour l’évolution du climat. Le sixième rapport d’évaluation (AR6) du Groupe d’experts intergouvernemental sur l’évolution du climat (IPCC) a adopté les principes FAIR. Dans un article publié sur la revue Nature, la mise en œuvre des principes FAIR à travers l’entrepôt Atlas est expliquée. Findability (Trouvabilité) : la facilité de trouver l’entrepôt lui-même est favorisée par son déploiement sur la plateforme GitHub, en outre, pour toutes les données climatiques utilisées dans Atlas, l’entrepôt contient des URL uniques (et des DOI, le cas échéant) pour les données et les métadonnées. Accessibility (Accessibilité) : les données et métadonnées de l’entrepôt Atlas sont ouvertes. Le contenu complet peut être récupéré de manière anonyme via HTTP, soit à partir de GitHub, soit à partir de Zenodo ; tout le contenu est sous licence Creative Commons Attribution (CC-BY 4.0). Interoperability (Interopérabilité) : ce principe est réalisé grâce à l’utilisation de formats de fichiers lisibles par l’homme et par la machine, comme le CSV, avec des informations d’en-tête supplémentaires (métadonnées). Reusability (Réutilisabilité) : le processus qui a été appliqué à la source de données originale est indiqué. Cela va jusqu’à fournir le code de traitement ainsi que toutes les versions des logiciels utilisés.
Études et enquêtes
Les critères de conformité des entrepôts de données de confiance. Plusieurs méthodes permettent d’évaluer les entrepôts de données et de vérifier qu’ils sont utilisables en toute confiance. Cette étude compare trois approches d’évaluation : les exigences de l’organisme CoreTrustSeal relatives à la fiabilité des entrepôts de données, l’approche Data Stewardship Maturity Matrix (DSMM) qui mesure les pratiques de gestion de données et enfin les principes FAIR visant à rendre les données faciles à trouver, accessibles, interopérables et réutilisables par l’homme et la machine. Cette étude décrit les points communs de ces trois guides et montre la difficulté d’interpréter les différents critères d’évaluation en raison de leur subjectivité et de leur multitude.
Décliner la science ouverte : rapport final. Réalisée dans le cadre du CoSO, l’étude a pour objectifs de répondre à plusieurs problématiques : comment caractériser la diversité des pratiques, notamment disciplinaires ? Comment les prendre en compte pour accompagner leur évolution ? Il ressort qu’au-delà de la seule grille de lecture disciplinaire, il existe d’autres facteurs à prendre en compte : la nature individuelle ou collective du travail, la démarche de recherche (environnement de travail, critères de qualité de la recherche, etc.), les outils et modalités d’apprentissage ou encore le statut et les fonctions en recherche. Cela a permis de distinguer 20 points d’attention pour mieux accompagner les communautés. Un constat : près de 50 % des personnes interrogées indiquent réutiliser souvent et/ou parfois des données déjà produites ou publiées et plus de 45 % de personnes interrogées considèrent que leurs données seraient potentiellement réutilisables. Les freins pour la diffusion relèvent essentiellement du manque d’habitude (63 %), du temps trop important nécessaire pour le partage (49 %) et de la volonté de garder un avantage compétitif (48 %). La synthèse est ici.
Enquête sur l’état de l’Open Data. Pour la 7eme année consécutive, Figshare, Digital Science et Springer Nature publient les résultats de leur enquête sur l’état de l’Open Data (The State of Open Data). D’après l’enquête, les deux principales raisons pour lesquelles les répondants partagent leurs données sont l’impact sur la citation des publications (pour 67% des répondants), et sur leur visibilité (61%). 72% des répondants indiquent qu’ils privilégient les ressources internes à leur institution (bibliothèque, services à la recherche, etc.) pour les aider à publier leurs données.
Publication des actes des journées OSEC 2022. Les actes des Journées européennes de la science ouverte (OSEC 2022), qui ont eu lieu les 4 et 5 février 2022, sont désormais disponibles sur le site de la conférence (captations vidéos et supports) en français et en anglais.
Data papers : point de vue de chercheurs taiwainais. Cette étude publiée dans la revue ASIS&T analyse les motivations qui incitent dix chercheurs à publier leurs jeux de données, dans un contexte où le facteur d’impact joue un rôle important pour leur évaluation. Les data papers peuvent permettre d’améliorer le taux de citation de ces chercheurs. Cependant, s’ils augmentent le nombre de leurs publications, ils peuvent aussi être considérés comme des productions secondaires.
Institutions
Un répertoire des serveurs de préprints. Pour aider les chercheurs à trouver un serveur de preprints correspondant avec leurs travaux, le Centre pour la Communication Scientifique Directe (CCSD) et la Confederation of Open Access Repositories (COAR) ont ouvert un répertoire, le Directory of Open Access Preprint Repositories (DOAPR). Les bases (> 90) sont réparties par discipline (2 actuellement en chimie et 4 en physique) ou par type de fonctionnalités (par ex, le text-mining, le peer-reviewing, etc.). D’autres outils, comme des moteurs de recherche scientifiques, sont également signalés. L’alimentation ou l’enrichissement de ce répertoire, collaborative, est possible via la page feedback. Cette réalisation a reçu le soutien du CoSo.
Les datapapers et les Plans de Gestion de Données intégrés dans HAL ! Les différents types de documents qu’il est possible de déposer dans HAL ont été mis à jour par le Centre pour la Communication Scientifique Directe (CCSD). Cette nouvelle typologie sera bientôt disponible dans le formulaire de dépôt. Elle prend en compte désormais les datapapers, dans la catégorie “articles dans une revue” et les plans de gestion des données, qui relèvent de la catégorie “rapports”. Une page de la documentation définit précisément les types. Parallèlement, le CCSD a actualisé sa feuille de route (2022-2027) organisée autour de 3 axes : ancrer le CCSD au sein de l’écosystème de la Science ouverte, renforcer les usages de HAL, Sciencesconf et Episciences via l’amélioration de la qualité et de la pertinence des services et enfin, assurer leur durabilité. Le document est accessible ici.
Mise à jour de la politique Science Ouverte du CERN. Rédigée par l’Open Science Strategy Working Group, la nouvelle politique globale de science ouverte du CERN a été publiée en septembre 2022. Elle reprend les politiques existantes en matière d’accès ouvert, de données ouvertes et de logiciels et matériels à code source ouvert, qui rendent accessibles au public tous les articles de recherche, les données expérimentales et les logiciels et matériels de recherche. Elle intègre également d’autres éléments existants de la science ouverte : l’intégrité de la recherche, l’infrastructure ouverte et l’évaluation de la recherche, ainsi que la formation, la vulgarisation et la science citoyenne.
Istex fête ses dix ans ! A l’occasion de cet anniversaire, une vidéo reprend l’histoire du projet et fait la part belle aux résultats : désormais, ce sont plus de 27 millions de documents scientifiques (issus de près de 10000 revues) accessibles à la communauté française, soit le plus grand réservoir d’archives scientifiques en France. Y sont associés des services comme des formations, la fouille de texte, des webservices permettant d’exploiter cette ressource.
Guides
Collection « Passeport pour la Science Ouverte ». Après la publication du premier guide Le passeport pour les doctorants, le comité Ouvrir la Science propose désormais deux nouveaux guides complémentaires : Codes et Logiciels et Entrez dans le débat. Cette collection de guides a le but d’accompagner les chercheurs dans la mise en pratique de la science ouverte. Codes et Logiciels aborde les questions liées à l’ouverture des codes et logiciels produits et utilisés dans le cadre de la recherche scientifique ; Entrez dans le débat apporte des éléments de réponses qui correspondent aux principaux questionnements des scientifiques.
Une aide pour la gestion des données de la recherche. Le 19 octobre DoRANum, la plateforme de formation en ligne sur la gestion et le partage des données de la recherche selon les principes FAIR, a mis à jour le parcours interactif sur la gestion des données de la recherche. On peut également tester ses propres connaissances avec une série d’exercices ludiques et variés.
Un guide pratique pour la rédaction de plans de gestion de logiciels (Software management plans). Comment les logiciels contribuent-ils à la Science Ouverte ? Ce guide pratique, élaboré par un groupe de travail néerlandais revient sur la définition d’un logiciel dans un contexte de recherche : une question qui ne va pas de soi comme le montrent les travaux du FAIR for Research Software working group (FAIR4RS). Il propose une liste de critères, quelques exemples de réponses et des ressources utiles pour accompagner la rédaction d’un plan de gestion de logiciels.
Open Access : à vous de jouer ! La bibliothèque de l’Ecole Polytechnique Fédérale de Lausanne a développé monOApoly, un jeu de plateau pour accompagner les chercheurs dans le choix de leurs stratégies de publication. Full Gold, Diamant, OA hybride, dépôt dans une archive institutionnelle : faire le bon choix en évitant les éditeurs prédateurs et le double dipping. Le matériel de jeu est déposé sur Infoscience.
Éditeurs
Deux nouveaux “accords transformants” chez IOP et AIP. IOP Publishing (IOPP) a conclu un accord transformant illimité avec l’Université nationale autonome du Mexique (UNAM) permettant aux chercheurs affiliés de publier leurs travaux en libre accès (OA) sans APC (ceux-ci sont pris en charge par l’UNAM). IOP Publishing a désormais conclu ce type d’accord avec plus de 300 institutions dans 17 pays. AIP Publishing s’est accordé quant à lui jusque fin 2024 avec l’association néerlandaise des bibliothèques universitaires et la Bibliothèque nationale des Pays-Bas sur les mêmes principes : publication sans APC directs dans 26 revues et accès illimité à 28 revues.
Les revues de la RSC en Open access. La Royal Society of Chemistry vient d’annoncer dans ce communiqué sa volonté de publier ses 44 revues en libre accès d’ici cinq ans. Cette démarche reposera sur des accords transformants, négociés via le Transformative Journal Programme de cOAlitionS, coalition regroupant des organismes internationaux de financement de la recherche. Le but de ces accords est de passer d’un modèle financier entièrement basé sur les abonnements à un modèle basé sur une rémunération équitable des services d’édition en libre accès des éditeurs.
Gratuité de la recherche scientifique. La recherche sur le COVID semble toujours accessible librement, comme le rapporte cet article de Nature. Mais le sujet fait débat et renvoie à une problématique plus large sur la diffusion de la recherche scientifique.
Évolution de la politique des revues Science en matière de libre accès. D’après cet article du journal Nature, 5 revues de la famille Science permettront aux auteurs, début 2023, de partager leurs manuscrits librement et sans frais. Cette pratique diffère de celles d’autres grands éditeurs comme Cell et Nature qui font payer à leurs auteurs des frais de publication pour diffuser la version finale de leurs articles en libre accès. La licence de réutilisation personnalisée pour un usage non commercial est encore en cours d’élaboration et n’a pas été précisée.
Commentaires