El lunes los científicos que trabajan en ciencias de la vida no daban crédito. Después de medio siglo intentando completar uno de los puzles más complejos de la biología, una inteligencia artificial había logrado, por fin, resolverlo. DeepMind había mostrado que era capaz de predecir con exactitud cómo las proteínas se pliegan y forman estructuras tridimensionales que determinan su función dentro de la célula usando un algoritmo de aprendizaje profundo.
En la base de este hito, que cambiará el curso de la biología y la biomedicina, está la investigación de un científico español, el bioinformático Alfonso Valencia , que hace 35 años, cuando era un postdoc en el Laboratorio Europeo de Biología Molecular (EMBL) en Heilderberg (Alemania), sentó las bases para un nuevo campo de estudio, el de la predicción de proteínas.
“Son la segunda parte del código genético”, explica este investigador Icrea, que dirige el departamento de Ciencias de la Vida en el Barcelona Supercomputing Center (BSC-CNS). “El ADN se transforma en proteínas, que participan en todos los procesos biológicos, y que no son otra cosa que secuencias de aminoácidos, lineales, que para poder desempeñar una función tienen que plegarse y adquirir una forma tridimensional”.
Como si fueran una ristra de aminoácidos, que, cuando se dobla y pliega da lugar a figuritas de origami, únicas, diseñadas para realizar tareas muy específicas. Comprender qué combinación de aminoácidos da lugar a cada figurita es un desafío intelectual y también práctico que investigadores de todo el mundo llevaban intentado resolver desde que en los años 70 el bioquímico Christian Anfinse ganó el Nobel de química por demostrar, precisamente, que las secuencias de aminoácidos determinan la estructura de las proteínas.
“Explorar todas las posibles soluciones que una proteína podría asumir usando un ordenador requeriría un tiempo imposible, incluso mayor que la edad del universo”, destaca Alba Lepore, investigadora sénior del BSC.
Para empezar, las proteínas son minúsculas, se sitúan en la escala casi atómica, cuántica, por lo que se necesitan técnicas de cristalografía y luz de sincrotrón para poder verlas. Y eso es un proceso costoso y lento. A eso se suma que hay infinitas formas en que una proteína se puede configurar para adquirir su forma y, por tanto, su función.
“Era un reto sumamente complejo lograr entender como una sola mutación en una proteína, que al final es un cambio en esa ristra de aminoácidos, puede afectar su estructura y luego su función, que es lo que ocurre en muchas enfermedades. Y ese es el tipo de problemas que ahora podremos resolver con una inteligencia artificial”, añade Lepore.
El logro de DeepMind
Tanto Lepore como Valencia forman parte del equipo del BSC que participa esta semana como jurado de los proyectos presentados a la competición internacional CASP (las siglas en inglés de Critical Assessment of Protein Structure Prediction), un certamen que se celebra desde 1994 cada dos años y que viene a ser como las olimpiadas de las proteínas.
En CASP, los organizadores reclutan a científicos experimentales que en el laboratorio hayan logrado resolver la estructura de una proteína y que aún no la hayan publicado. Y luego, a científicos que trabajan con algoritmos para predecir la estructura de las proteínas a partir de la secuencia de aminoácidos, a quienes se les da la secuencia de aminoácidos de unas 100 proteínas y se les desafía a que logren averiguar su ‘origami’. Luego, un panel de expertos evalúa sus resultados comparándolos con los que se habían obtenido en el laboratorio.
“Lo que ha logrado DeepMind es un salto de gigante. Sus predicciones de estructuras son muy buenas, tanto como las que se producen experimentalmente. Si hace cinco años me hubieran dicho que esto iba a pasar, hubiera respondido que era imposible”, afirma Valencia.
Para lograrlo, DeepMind ha entrenado a su algoritmo usando una base de datos pública que contiene unas 170.000 secuencias de proteínas y sus estructuras. Y ha transformado el problema en uno de reconocimiento de imagen. “Han cogido la estructura tridimensional y la han convertido en un mapa 2D. Tienen mapas así de decenas de miles de proteínas con los que alimentan el sistema, una red neuronal, que aprende a casar mapas predichos con mapas reales”, explica Valencia.
Un método de hace 35 años
Y ahí es donde entra la investigación realizada por este bioinformático, al frente del Instituto Nacional de Bioinformática (INB- ISCIII). Hace 35 años, cuando investigaba como postdoc en el EMBL, analizaba secuencias de proteínas humanas y las comparaba con las de otros animales para ver qué variaciones había y si éstas se debían a adaptaciones evolutivas. Vio que cuando se producía un cambio de un aminoácido por otro en una posición, este se correlacionaba con otro en otra posición. Y eso permitía predecir contactos: puntos en el mapa 2D claves para entender la estructura tridimensional.
“Propusimos un método para predecir la estructura de la proteína a partir del mapa bidimensional y aquello supuso el inicio de un campo que ha necesitado más de 20 años para realizar mejoras teóricas. Aquel trabajo fue fundacional”, afirma con orgullo Valencia, que señala que DeepMind se ha basado en este método para desarrollar su mapa de contactos que usa para predecir la estructura de proteínas. “Esto nos permitirá a partir de ahora navegar con guía”, destaca este investigador Icrea.
Nuevos fármacos para enfermedades
Poder predecir la estructura de las proteínas tendrá un impacto enorme para toda la investigación en biología y biomedicina, subraya Lepore. Para empezar, en el desarrollo de fármacos, porque disponer de la información precisa de cómo se pliega una proteína puede definir estrategias basadas en la estructura para encontrar nuevas moléculas que se unan a ella de forma muy selectiva para modular su función.
También permitirá comprender la relación entre estructura y enfermedad. Estudiar el efecto de las mutaciones y su potencial impacto en la función de la proteína es posible cuando se conoce la estructura de la proteína. Además, resalta Leporo, será crucial para poder diseñar proteínas con funciones específicas .
“Los algoritmos ya están maduros y disponemos de suficiente capacidad de cálculo y estadística para poder comenzar a solventar problemas científicos reales”, resuelve Valencia