Baker –catedrático de Bioquímica de la Universidad de Washington e investigador del Howard Hughes Medical Institute– es el creador del programa RoseTTAFold, mientras que Hassabis y Jumper –CEO e investigador senior, respectivamente, de la compañía de Inteligencia Artificial DeepMind– son los autores de AlphaFold2. “Ambos métodos computacionales”, explica el jurado, “están basados en una sofisticada técnica de aprendizaje automático denominada aprendizaje profundo para predecir la forma de las proteínas con una precisión sin precedentes, similar a la de las estructuras determinadas experimentalmente, y a una velocidad excepcional”.
“Este trascendental avance”, concluye el acta, “está revolucionando el conocimiento de cómo la secuencia de aminoácidos de las proteínas origina estructuras tridimensionales ordenadas de forma única. Los científicos utilizan ahora estos nuevos métodos para predecir interacciones entre proteínas, diseñar proteínas completamente nuevas y encontrar nuevas dianas farmacológicas”.
“Hasta ahora”, resalta Óscar Marín, director del Centro de Trastornos del Neurodesarrollo del Medical Research Council en King’s College London (Reino Unido) y secretario del jurado, “se necesitaban años de trabajo muy duro en el laboratorio para predecir la estructura de una única proteína, pero gracias a los avances logrados por los tres premiados ahora solo necesitamos unos pocos minutos en el ordenador para lograr este objetivo”. Las contribuciones de Baker, Hassabis y Jumper, añade, “nos van a permitir avanzar mucho más rápidamente en el desarrollo de terapias para múltiples enfermedades”.
Un ‘atajo’ tecnológico para predecir la estructura de proteínas
En el ADN de nuestras células residen todas las instrucciones que necesitamos para desarrollarnos, sobrevivir y reproducirnos. Pero las auténticas responsables de llevar a cabo estas funciones son las proteínas, y su estructura tridimensional juega un papel determinante en su misión.
Para descubrir la función de una proteína no basta con conocer la secuencia de ADN que la codifica, ni siquiera con identificar la secuencia de aminoácidos en la que se traduce la información genética. La disposición en el espacio que adopta la proteína cuando se pliega es clave para saber cómo actúa, pero descifrarla en el laboratorio es un proceso lento y sujeto a imprecisiones. Predecirla a partir de su composición química es también una tarea compleja.
“La comunidad científica siempre asumía que iba a ser demasiado complicado entender cómo se pliegan las proteínas. Si lo intentas deducir de los principios físicos que rigen en el proceso, necesitas una cantidad ingente de recursos computacionales para adivinar cuál es la forma más estable”, ha explicado Dario Alessi, director de la Unidad de Fosforilación y Ubiquitinación de Proteínas-MRC en la Universidad de Dundee (Reino Unido) y vocal del jurado, justo después de emitir el fallo. “Sin embargo los premiados han desarrollado un atajo utilizando Inteligencia Artificial, con un método de aprendizaje profundo”, añade Alessi.
“Creo que AlphaFold representa realmente el primer ejemplo poderoso de cómo el aprendizaje profundo es capaz de captar la complejidad de los sistemas biológicos y desarrollar realmente la comprensión matemática de cosas extraordinariamente complejas”, ha declarado Jumper, en una entrevista concedida poco después de conocer la concesión del premio. “Es muy difícil manejar la extraordinaria complejidad que se observa en una célula viva, pero de verdad, creo que con esta tecnología somos capaces de captar esa complejidad”.
“AlphaFold ya ha incidido en la investigación biológica con un gran impacto en muy poco tiempo”, resalta por su parte Demis Hassabis. “Sabemos que más de un millón de investigadores han utilizado las estructuras predichas por AlphaFold en sus investigaciones, y prácticamente todas las compañías farmacéuticas del mundo han utilizado AlphaFold en sus programas de descubrimiento de fármacos”.
Proteínas ‘de diseño’ para bloquear virus y células cancerígenas
Además de predecir cómo se pliegan las proteínas que ocurren en la naturaleza, el programa RoseTTAFold impulsado por David Baker también ha demostrado ser muy útil para diseñar proteínas completamente nuevas a partir de una sencilla descripción de las funciones que se quiere que cumplan. Así, el programa permite obtener proteínas para bloquear desde proteínas del virus de la gripe o del Covid-19 hasta células cancerígenas, y los resultados se han comprobado con éxito en el laboratorio.
“Las proteínas nuevas pueden constituir medicamentos mejorados, por lo que hay muchas aplicaciones médicas novedosas y emocionantes. Por ejemplo, se podrán crear nuevas vacunas o nuevos medicamentos para tratar el cáncer”, explica Baker.
A finales de la década de los 90 del siglo pasado, este bioquímico y biólogo computacional estadounidense comenzó a explorar maneras de deducir la estructura de las proteínas a partir de los principios físicos y plasmó sus conclusiones en un algoritmo bautizado como Rosetta. Funcionaba relativamente bien para proteínas pequeñas, pero requería grandes recursos computacionales y un conocimiento muy experto para emplearlo.
En paralelo, Demis Hassabis y John Jumper se propusieron utilizar la Inteligencia Artificial para tratar de resolver el problema de manera más ágil y accesible. Jumper lideró un equipo que empleó herramientas de aprendizaje profundo que ya estaban disponibles para toda la comunidad científica y utilizó ingentes cantidades de datos acerca de las secuencias y estructuras de las proteínas conocidas para entrenar a la red neuronal.
El lanzamiento de ese primer intento, al que llamaron AlphaFold, tuvo lugar en 2018. “Teníamos el mejor sistema del mundo en aquel momento”, expone Jumper, “pero distaba mucho de tener la precisión que sabíamos que era necesaria para ser relevante a nivel experimental”.
De inmediato, se pusieron a trabajar para diseñar un sistema mejor. Comenzaron de cero y decidieron integrar todo el conocimiento que poseían acerca de cómo se pliegan las proteínas dentro de la propia red neuronal. Así, la red no solo tenía la información que aportaban las proteínas ya conocidas, sino que además incorporaba partes del mecanismo de plegado dentro del diseño.
“Esto permite que la red aprenda radicalmente más rápido a partir de los datos existentes”, afirma Jumper. En diciembre de 2020 presentaron la nueva herramienta, AlphaFold2, a un concurso internacional donde se mediría con otros sistemas similares, y el éxito rotundo superó las expectativas de los propios investigadores. AlphaFold2 conseguía en solo unos días lo que en laboratorio habría llevado años de trabajo.
Durante el anuncio de AlphaFold2, Jumper había perfilado algunos de los conceptos clave para la herramienta, y Baker tomó buena nota de aquellas pistas. “Comenzamos a mantener reuniones semanales en mi grupo de investigación, hicimos una revisión sistemática de las ideas que teníamos, empezamos a experimentar, y aquello fue lo que acabó conformando RoseTTAFold”, relata el investigador.
El lanzamiento llegó pocos meses después. El nivel de exactitud era comparable al de AlphaFold2, y contaba con una funcionalidad añadida. No solo permitía predecir la estructura de una proteína a partir de la secuencia de aminoácidos que la generaba en cuestión de horas o incluso minutos, sino que incorporaba también el proceso contrario: a partir de una proteína con una forma dada, obtenía la secuencia de aminoácidos correspondiente.
Herramientas de acceso libre para la comunidad de investigación biomédica
Ahora, tanto RoseTTAFold como AlphaFold2 son herramientas de acceso libre para la comunidad científica, y las mejoras que se han implementado recientemente casi han igualado los tiempos de computación que necesita cada una.
Aunque estos programas de Inteligencia Artificial no han sustituido del todo a las técnicas experimentales, de momento ya han irrumpido con fuerza como complemento a las mismas, revolucionando el campo de la biología. “Es la primera gran demostración de lo impresionante que va a ser la Inteligencia Artificial para el campo”, destaca Alessi.
El investigador y miembro del jurado recuerda que, cuando surgió AlphaFold, su laboratorio había estado trabajando durante tres años para desentrañar la estructura de la proteína PPM1H mediante técnicas experimentales. “Teníamos la estructura y estábamos a punto de publicarla cuando salió AlphaFold. Por curiosidad, comparamos las estructuras y eran totalmente idénticas. En 547 aminoácidos no había ninguna diferencia significativa”, relata, aún impresionado de que el programa consiguiera en unos minutos lo que hasta entonces requería años de trabajo.
Gracias a estas herramientas, ahora se conoce la estructura de casi todas las proteínas documentadas, no solo humanas sino también de animales, plantas e incluso bacterias. Este conocimiento tiene una aplicación inmediata en la creación de nuevos fármacos y vacunas.
“Ya hemos visto que AlphaFold se aplica a una gran variedad de problemas”, resalta Hassabis. “Algunas de las cosas que más nos entusiasman son su uso para el descubrimiento de fármacos, por ejemplo, para combatir la resistencia a los antibióticos, o para tratar de encontrar curas para enfermedades como la malaria”.
De hecho, Jumper ha colaborado con un grupo de investigación de la Universidad de Oxford que estaba trabajando en el desarrollo para una vacuna contra la malaria. Las vacunas suelen incorporar fragmentos de la proteína del agente infeccioso, pero para elegir qué fragmento es el más indicado es crucial conocer la estructura de la proteína candidata. El equipo de Oxford, destaca Jumper, “no entendía bien la estructura de la proteína que necesitaban, y eso les impedía elaborar la configuración adecuada. Utilizaron AlphaFold para predecir la estructura y así pudieron entender qué fragmentos podrían funcionar y cómo fabricar una vacuna a partir de ellos”.
Gonzalo Jiménez Osés, biólogo computacional e investigador principal en CIC bioGUNE, en Bilbao, y nominador de la candidatura, explica una de las facetas con mayor potencial de esta contribución para el área biomédica: “Uno de los éxitos de Alphafold es integrar la enorme información genética y estructural acumulada por los científicos, durante décadas en bases de datos de acceso abierto en una red neuronal avanzada junto con un sofisticado algoritmo de aprendizaje automático, y una derivación inmediata va a ser el diseño de nuevos medicamentos: en el campo de desarrollo de fármacos clásicos, vamos a descubrir nuevas dianas terapéuticas, pero lo más relevante es que se van a poder conocer con mayor precisión las redes de interacción entre proteínas que tienen lugar en una enfermedad, como por ejemplo el cáncer y procesos del sistema inmunitario, de forma mucho más rápida, y eso va a derivar en nuevos tratamientos porque las simulaciones por ordenador de estos procesos complejos van a ser mucho más fiables”.
La revolución de las proteínas “a la carta” para crear medicamentos más sofisticados
Por el momento, el mayor impacto para la creación de nuevas vacunas y fármacos está siendo el diseño de proteínas artificiales con propiedades a la carta. La actualización más reciente de RoseTTAFold permite, incluso, crear proteínas a partir de descripciones sencillas. “Es como DALL-E pero para las proteínas”, compara Baker, haciendo referencia al sistema de Inteligencia Artificial que crea imágenes realistas a partir de una descripción textual. “Así, por ejemplo, puedes decirle a RoseTTAFold: diseña una proteína que bloquee esta proteína del virus de la gripe, o diseña una proteína que bloquee estas células cancerígenas. RoseTTAFold creará esas proteínas. Las hemos fabricado en el laboratorio, y encontramos que tienen exactamente esas funciones.”
Ya existe una nueva vacuna contra el coronavirus creada gracias a RoseTTAFold y que se está utilizando en Corea. También se han fabricado nuevos medicamentos contra el cáncer que se están probando en ensayos clínicos con humanos. Incluso se prevé la creación de un spray nasal que proteja contra la Covid y otros virus respiratorios.
“Creemos que casi toda la medicina se verá transformada por la revolución del diseño de proteínas”, asegura Baker. “La mayoría de los medicamentos actuales se fabrican introduciendo pequeñas modificaciones en las proteínas que ya existen en la naturaleza. Ahora que podemos diseñar proteínas completamente nuevas, podemos desarrollar medicamentos mucho más sofisticados y mejorados que, por ejemplo, pueden tratar el cáncer sin los efectos secundarios, fabricarse muy rápidamente en caso de brote de una nueva pandemia y, en general, serán más precisos y más robustos”.