Simplified Molecular Input Line Entry Specification

Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères ASCII.



Catégories :

Représentation des molécules

Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères ASCII. Les chaînes SMILES peuvent être importées dans la majorité des éditeurs de structure moléculaire pour être reconverties en représentation 2D ou en modèle 3D, et donc, permettent de construire des bases de données informatiques (assez) simplement.

La définition du langage SMILES a été originellement introduite par David Weininger à la fin des années 1980[1]. Plusieurs extensions et modifications ont été ajoutées depuis, surtout par la société Daylight Chemical Information Systems, dont Weininger est le fondateur. Il existe d'autres langages à ligne de texte pour représenter les molécules, dont surtout InChl, introduit par l'IUPAC. SMILES est cependant plus commun, car plus facile à lire par l'utilisateur humain et en particulier parce qu'il est implémenté dans de nombreux logiciels de chimie moléculaire.

Principes de SMILES et théorie des graphes

SMILES est basé sur la représentation d'une molécule chimique sous forme d'un graphe, au sens mathématique du terme. Les atomes sont les sommets du graphe, et les liaisons chimiques en sont les arêtes. Chaque sommet du graphe est étiqueté avec le symbole de l'atome correspondant (C, N, O... ).

La chaîne de caractère SMILES correspondant à une molécule donnée est obtenue en parcourant progressivement le graphe suivant un algorithme de parcours en profondeur et en imprimant successivement le symbole de chaque sommet traversé. Le graphe de la molécule est préalablement simplifié en supprimant l'ensemble des atomes d'hydrogène (notation implicite) et en ouvrant les cycles pour transformer le graphe en arbre couvrant (spanning tree). A chaque fois qu'un cycle est ouvert, un suffixe numérique est ajouté pour indiquer la connexion des sommets correspondant à la liaison chimique supprimée. Des parenthèses sont utilisées pour indiquer les points de branchement sur l'arbre.

Exemple de dérivation de représentation SMILES. A. Structure de la molécule, la ciprofloxacine. B. Suppression des hydrogènes, ouverture des cycles et numérotation. C. Arbre couvrant la structure dé-cyclisée. D. Chaîne SMILES correspondante, le code couleur correspond à la couleur des branches sur le panneau C.
  • Atomes : les atomes sont représentés par leur symbole chimique entre crochets, comme [Se] pour le sélénium. Les crochets peuvent être omis pour les éléments usuels de la chimie organique : C, N, O, P, S, B, F, Cl, Br et I. L'ensemble des autres éléments doivent être mis entre crochets. Quand les crochets sont omis, les valences libres de chaque atome sont implicitement supposées être complétées par des atomes d'hydrogène. A titre d'exemple, la représentation SMILES de l'eau est O, celle de l'éthanol est CCO.
  • Liaisons : La liaison simple est implicite et n'est pas représentée. CC représente par conséquent l'éthane et CCC, le propane. La double liaison est représentée par le symbole "=" et la triple liaison par le symbole "#". L'éthylène est par conséquent C=C, et le cyanure d'hydrogène, C#N.
  • Ramifications : Les ramifications de la structure moléculaire sont indiquées entre parenthèses, immédiatement après l'atome sur lequel elles sont branchées. Par exemple CC (=O) O représente l'acide acétique, avec deux atomes d'oxygène branchés sur le carbone du groupement carboxylique. Les ramifications peuvent être enchaînées et imbriquées pour décrire des structures moléculaires plus "branchées", comme par exemple celle de l'acide citrique : OC (=O) CC (O) (CC (O) =O) C (O) =O.
  • Cycles : La fermeture des cycles est indiquée par des chiffres positionnés après les atomes qui sont reliés. Le cyclohexane est représenté par C1CCCCC1, les deux "1" servant de labels indiquant que les deux carbones qui les précèdent sont reliés, formant un cycle à six atomes.
  • Aromaticité : Les atomes C, N, O, S participant à un cycle aromatique sont représentés en minuscule par'c', 'n', 'o'et's', respectivement. Les doubles liaisons sont rarement indiquées de manière explicite. Le benzene est ainsi représenté par c1ccccc1 (plutôt que par C1=CC=CC=C1, qui correspond à la formule de Kekulé).

Il existe des algorithmes informatiques pour transformer automatiquement le schéma d'une molécule donnée en chaîne SMILES. Il n'existe généralement pas de description unique d'une molécule et que plusieurs SMILES peuvent décrire la même structure chimique. Ceci dépend de l'atome dont on part pour décrire la structure, de l'ordre dans lequel on décrit les branches du graphe moléculaire et de la manière dont on ouvre les cycles. A titre d'exemple, c1ccccc1o et c1ccc (o) cc1 sont deux représentations SMILES synonymes du phénol.

Réciproquement, la description SMILES d'une molécule peut être reconvertie en représentation chimique 2D classique, au moyen d'algorithmes de représentation de graphe.

La méthode SMILES permet d'échanger numériquement des descriptions de molécules arbitrairement complexes par le biais d'un fichier texte classique. La représentation SMILES étant particulièrement compacte, elle sert à stocker simplement des fichiers de plusieurs centaines de milliers de molécules (chimiothèques).

Il existe des extensions du langage SMILES servant à décrire la chiralité et la conformation des doubles liaisons. On peut ainsi décrire la conformation R ou S d'un carbone asymétrique ou l'isomérie cis/trans. On peut aussi décrire les états de protonation, la présence d'isotopes spécifiques et même décrire des schémas réactionnels.

SMARTS est une extension de SMILES qui permet, en plus des définitions classiques, de remplacer des atomes ou des liaisons par des jokers. Ceci est utilisé pour spécifier des motifs chimiques utilisés pour des recherches dans des banques de données de molécules (chimiothèques). Cela permet surtout la recherche de sous-structures chimiques communes à deux molécules.

  1. D. Weininger ;SMILES, a Chemical Language and Information System. 1. Introduction to Methodology and Encoding Rules" (1988) J. Chem. Inf. Comput. Sci. 28 :31-36

Recherche sur Google Images :



"Simplified Molecular Input"

L'image ci-contre est extraite du site fr.wikipedia.org

Il est possible que cette image soit réduite par rapport à l'originale. Elle est peut-être protégée par des droits d'auteur.

Voir l'image en taille réelle (400 x 575 - 50 ko - png)

Refaire la recherche sur Google Images

Recherche sur Amazone (livres) :




Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Simplified_Molecular_Input_Line_Entry_Specification.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 06/11/2009.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu