Adopter un plan de gestion des données

Les formats standards en chimie

La réutilisation des données de recherche est souvent obérée par les formats informatiques utilisés. Dans un plan de gestion de données, le choix des formats mérite réflexion. Les standards ouverts ou largement reconnus par la communauté sont à privilégier. En voici les principaux exemples, applicables au domaine de la chimie. (1)

FormatDescription
JcampExtension .jdx ou .dx. Standard ouvert et universel propre à la spectrométrie. L’un des plus anciens formats, utilisé depuis 1988. Géré par l’IUPAC et reconnu par la plupart des visualiseurs de spectres.
mzMLFormat ouvert dédié à la spectrométrie de masse créé en 2006. Repose sur un encodage en XML. La plupart des formats propriétaires peuvent être convertis en mzML via l’usage d’un convertisseur (ex : CompassXport pour Bruker, MSConvert pour Agilent, ThermoFisher, Shimadzu etc.)
molFormat propriétaire de molécule créé par la société MDL faisant partie des formats les plus utilisés pour coder des molécules avec précision. La majorité des logiciels lisent les fichiers MOL ou proposent un export dans ce format.
sdfStructure data format. Extension du format MOL, également développée par MDL et permettant d’encoder plusieurs molécules de la même manière qu’avec le format MOL et d’inclure par ailleurs des métadonnées (« tags »).
rxnFormat également développé par la société MDL dans les années 90. Format le plus courant pour stocker des informations sur les réactions. Contient les réactants et les produits d’une réaction.
rdfReaction data file. Permet de stocker des réactions et des molécules tout en incluant des « tags » en fin de fichier.
cmlFormat ouvert de métadonnées dérivé du XML, appliqué à la chimie et développé à la fin des années 90. Permet d’encoder des molécules, des réactions et des spectres sans perdre les informations associées. Format reconnu par des outils tels que JChemPaint, Jmol, XDrawChem, MarvinView.
SmilesFormat universel permettant d’encoder en ligne de texte une molécule Pratique pour la description de sous-structures. Peut également servir à encoder des réactions.
Isomeric SmilesExtension du format précédent avec prise en compte de la stéréochimie.
InChiAutre format d’encodage universel de molécules à partir de ligne de texte. Donne plus de précisions que Smiles.
InChi KeyAutre format d’encodage de molécules en ligne de texte que l’on retrouve dans beaucoup de logiciels et databank.
xyzFormat plus spécifique définissant la géométrie d’une molécule.
FIDFormat propriétaire développé par Bruker, permettant d’encoder les données issues de RMN.
CIF Crystallographic Information Framework. Format utilisé depuis 1997 pour archiver et échanger des informations cristallographiques. Il est soutenu par l’Union Internationale de la Cristallographie.
nmrMLFormat ouvert dérivé du XML pour stocker les informations relatives aux données métabolomiques issues de RMN. L’objectif est de faciliter l’échange de données en métabolomique, qui repose encore souvent sur des formats propriétaires.
AnIMLFormat ouvert dérivé du XML dédié au stockage des informations relatives aux données analytiques en chimie, et particulièrement pour des données de spectroscopie et de chromatographie. Développé en 2004 par l’ASTM, le format est composé de 4 sections : les informations relatives aux échantillons, les informations relatives aux procédures et aux mesures des données, les informations relatives à la qualité, puis les signatures électroniques des participants.

Autres ressources :
Convertisseur en ligne OpenBabel spécialisé dans les formats de chimie
Convertisseur de la suite ChemAxon permettant de faire des conversions en ligne de commandes

  • 1. Cette typologie a été préparée avec le concours de Thierry Billard, directeur de recherche CNRS à l’ICBMS (UMR CNRS 5246).