Hace mucho que la administración pública de nuestro país comprendió que el nombre de pila y el apellido no eran suficientes para identificar a las personas. Los inconvenientes de este método los pueden relatar en primera persona algunas figuras públicas detenidas en los aeropuertos por tener el mismo nombre que un narcotraficante. Así, aunque resulte un poco frío es mucho más práctico asignar un número (como el Número de Identificación Fiscal, NIF) que permita identificar de modo inequívoco a cada ciudadano.Exactamente el mismo problema ocurre con las sustancias químicas. Para identificarlas hemos utilizado nombres tradicionales, comerciales. También hay una nomenclatura sistemática con reglas muy completas y bien diseñadas por organismos internacionales (International Union of Pure and Applied Chemistry o IUPAC). Sin embargo, usar nombres tiene sus inconvenientes: el modo en que se escriben varía de país a país o con el tiempo. Por poner algún ejemplo, el ácido muríatico, espíritu de sal, ácido marino o ácido de sal corresponde a lo que hoy en día se conoce como ácido clorhídrico, cuya fórmula es HCl. Si hablamos de acetaminofeno, APAP, Tylenol o Panadol nos referimos al fármaco que en España conocemos comúnmente por paracetamol o bajo nombres comerciales como Gelocatil y Termalgin. Confuso, ¿no?
La cosa se complica aún más si pretendemos introducir estos compuestos en una base de datos o procesarlos de modo informático. Difícilmente una base de datos reconocerá que el acetaminofeno o el paracetamol son la misma sustancia. Esto nos hará más difícil encontrar el compuesto que buscamos en Google o en un catálogo comercial, pero el problema es mucho más grave. En el área biomédica, por ejemplo, este problema es un obstáculo para cruzar información entre diferentes bases de datos donde se almacenan información sobre las propiedades de los compuestos o para detectar duplicados.
Distintos nombres usados para denominar al paracetamol
Afortunadamente, como el lector ya habrá adivinado, la solución está en asignar un identificador único a cada compuesto. ¡Brillante!… ¿o no? Veamos, para que el método funcione tiene que haber “alguien” encargado de asignar estos números, que se asegure también que no se asignan dos números distintos a cada compuesto. Históricamente diversas entidades se han encargado de esta tarea. El Beilstein Institute for the Advancement of Chemical Sciences (fundado en 1951 por Max Planck) ha venido compilando compuestos publicados desde 1771 y asignando códigos únicos (Beilstin registry number) a millones de compuestos. Originalmente distribuido en versión impresa (más de 350 volúmenes) esta base de datos era conocida como el Beilstein Handbook of Organic Chemistry.
Versión impresa del Beilstein Handbook of Organic Chemistry. Dedicado a aquellos que dicen que el saber no ocupa lugar.
La alternativa del otro lado del Atlántico, mucho más conocida, viene de la mano del Chemical Abstract Service, una división de la American Chemical Society, que lo ha venido haciendo coleccionando compuestos y asignándoles un identificador (el CAS Registry Number® o CAS RN®) desde 1957. Actualmente la base de datos contiene más de 100 millones de compuestos. El trabajo que hay detrás no es pequeño y, para que nos hagamos una idea, supone añadir una media de más de 15.000 compuestos diarios.
OK, caso resuelto… ¿o no? Pues no del todo. Para comenzar estamos hablando solo de compuestos publicados. ¿Qué hacemos con los compuestos que aún no ha sido patentados y por tanto no han aparecido en la literatura? Este problema es especialmente grave para los compuestos generados por la industria farmacéutica durante el desarrollo de medicamentos. Otro problema es que los CAS RN no han conseguido ser realmente únicos y en muchos casos pueden encontrarse substancias con dos o más CAS RN. Por último, y no menos grave, el CAS es una institución privada y los CAS RN® son su propiedad intelectual (de ahí el ®). Para la mayoría de los usuarios su uso es gratuito, pero si una base de datos almacena más de 10.000 compuestos tendremos que pagar una licencia a la ACS.
¿Hay alternativas? Claro, podemos generar nuestra base de datos con nuestro propio identificador. Hay decenas, cientos o quizás miles de estos identificadores. Algunos ejemplos, solo en el área biomédica son los del ChEMBL, ChemSpider, CompTox, PubChem. La vida y aceptación de estos códigos es desigual. Si los usamos para nuestros compuestos dependemos de la estabilidad a lo largo del tiempo de la institución que los ha emitido y de su voluntad de no cambiarlos y mantener accesible la base de datos, algo que muchas veces depende de la financiación externa. Para apreciar la dimensión del problema os pongo en la figura de más abajo la estructura del paracetamol y algunos de los nombres e identificadores más comunes:
Identificadores del paracetamol en algunas bases de datos de uso común en Biomedicina.
Moverse en esta babel de nombres no es sencillo y existen en Internet algunas bases de datos y servicios que nos pueden ayudar a transformar unos identificadores en otros, como por ejemplo ChemSpider, proporcionado por la Royal Society of Chemistry y, sobre todo UniChem [1]. Este último servicio tiene la ventaja de mapear más de 28 identificadores y permitir la conversión on-line, en forma de servicio web o incluso descargar las tablas de conversión de unos identificadores a otros para más de 130 millones de compuestos.
Como hemos visto hasta ahora, cualquier intento de asignación de identificadores únicos por parte de una entidad, tiene inconvenientes como que pueda exigirnos pagar licencia o bien desaparecer conel tiempo. Una alternativa interesante es generar dichos identificadores a partir de la propia estructura de la molécula. En principio, es dicha estructura, la disposición relativa de átomos y las características de los enlaces, lo que hace cada substancia única luego ¿por qué no usarla para obtener un identificador? Uno de los intentos más exitosos de completar esta tarea produjo los SMILES (Simplified Molecular Input Line Entry Specification) [2] que pueden construirse muy sencillamente a partir de la representación 2D de la molécula mediante reglas sencillas, ya sea manualmente o con programas de ordenador. En la siguiente figura he representado el SMILE de nuestro amigo el paracetamol y puede verse que es una representación compacta, elegante y clara Los SMILES nacieron como un modo de representar y almacenar informáticamente estructuras y cumplen muy bien esta función. De hecho, siguen siendo ampliamente utilizados en la actualidad. Sin embargo, tienen el inconveniente de que la representación no es biunívoca… me explico. Un SMILES siempre representa a la misma molécula, pero la misma molécula puede dar lugar a más de un SMILES correcto, tal y como se representa en la figura anterior. Esto invalida completamente la posibilidad de usar SMILES como identificadores únicos. Existen intentos de modificar las reglas de generación para obtener SMILES biunívocos, llamados SMILES canónicos. Sin embargo, el éxito de estos intentos es discutible y se han observado excepciones, por lo cual su uso no está muy extendido.
Finalmente, la IUPAC, la misma entidad que desarrolló las reglas de nomenclatura sistemática que hemos mencionado al principio, en 2004 decidió dar una solución definitiva al problema desarrollando los denominados InChI (IUPAC International Chemical Identifier). Estos identificadores son generados por un algoritmo computacional a partir de la estructura 2D de las moléculas y en este sentido son parecidos a los SMILES. Sin embargo, tienen varias ventajas:
- Son no-propietarios, aunque la IUPAC retiene los derechos intelectuales y la propiedad de la marca para evitar litigios.
- Son (razonablemente) biunívocos
- La IUPAC distribuye gratuitamente tanto el algoritmo como el software para generar estos identificadores
- El identificador contiene varias “capas” que permiten hacer búsquedas de compuestos emparentados en una base de datos simplemente utilizando la primera o la segunda parte del identificador [3].
Además, existe una versión compacta del identificador (el InChiKey) generada mediante un algoritmo de hashing o resumen que lo hace tan compacto como un SMILES, aunque menos legible. En la figura pueden verse estos identificadores para nuestra molécula de ejemplo.
Algunos identificadores del paracetamol basados en su estructura: SMILES y InChI
Por supuesto, UniChem incorpora InChIKey, haciendo posible convertir en ambas direcciones estos identificadores con el resto de identificadores incorporados en este servicio.
Hasta aquí hemos descrito los esfuerzos realizados hasta el momento. ¿Cuál es el futuro? Personalmente espero que pase por la adopción generalizada de estándares como InChi e InChiKey así como la universalización de UniChem para convertir identificadores obsoletos. ¡Realmente no necesitamos nuevos identificadores! Aun así, nadie debe asustarse, por el momento no necesitaremos memorizar el InChiKey del paracetamol la próxima vez que nos duela la cabeza (recuerda… “RZVAJINKPMORJF-UHFFFAOYSA-N”) y podremos pedirle a nuestro farmacéutico “un colocatil” que seguro que nos entiende.
Referencias
- Chambers J, Davies M, Gaulton A, Hersey A, Velankar S, Petryszak R, Hastings J, Bellis L, McGlinchey S, Overington JP. UniChem: A Unified Chemical Structure Cross-Referencing and Identifier Tracking System. Journal of Cheminformatics 2013;5:3
- Weininger D. SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, J Chem Inf Comput Sci. 1988;28:31-6.
- Chambers J, Davies M, Gaulton A, Papadatos G, Hersey A, Overington JP. UniChem: extension of InChI-based compound mapping to salt, connectivity and stereochemistry layers. Journal of Cheminformatics 2014;6:43