Google detalla su software de plegado de proteínas, los académicos ofrecen una alternativa

Imagen de dos rastros multicolores de estructuras complejas.

Gracias al desarrollo de la tecnología de secuenciación de ADN, se ha vuelto trivial obtener la secuencia de bases que codifican una proteína y traducirla en la secuencia de aminoácidos que la componen. Pero a partir de ahí, a menudo terminamos estancados. La función real de la proteína solo se especifica indirectamente por su secuencia. En cambio, la secuencia dicta cómo la cadena de aminoácidos se pliega y se flexiona en un espacio tridimensional, formando una estructura específica. Esa estructura es típicamente lo que dicta la función de la proteína, pero obtenerla puede requerir años de trabajo de laboratorio.

Durante décadas, los investigadores han intentado desarrollar software que pueda tomar una secuencia de aminoácidos y predecir con precisión la estructura que formará. A pesar de que se trata de una cuestión de química y termodinámica, solo hemos tenido un éxito limitado, hasta el año pasado. Fue entonces cuando el grupo de inteligencia artificial DeepMind de Google anunció la existencia de AlphaFold, que normalmente puede predecir estructuras con un alto grado de precisión.

En ese momento, DeepMind dijo que les daría a todos los detalles sobre su avance en un futuro artículo revisado por pares, que finalmente publicó ayer. Mientras tanto, algunos investigadores académicos se cansaron de esperar, tomaron algunas de las ideas de DeepMind e hicieron las suyas propias. El documento que describe ese esfuerzo también se publicó ayer.

La suciedad en AlphaFold

DeepMind ya describió la estructura básica de AlphaFold, pero el nuevo artículo proporciona muchos más detalles. La estructura de AlphaFold involucra dos algoritmos diferentes que se comunican de un lado a otro con respecto a sus análisis, lo que permite que cada uno refine su salida.

Uno de estos algoritmos busca secuencias de proteínas que sean parientes evolutivos del en cuestión y descubre cómo se alinean sus secuencias, ajustándose a pequeños cambios o incluso a inserciones y deleciones. Incluso si no conocemos la estructura de ninguno de estos parientes, aún pueden proporcionar limitaciones importantes, indicándonos cosas como si ciertas partes de la proteína siempre están cargadas.

El equipo de AlphaFold dice que esta parte de las cosas necesita alrededor de 30 proteínas relacionadas para funcionar de manera efectiva. Por lo general, presenta una alineación básica rápidamente y luego la refina. Este tipo de refinamientos pueden implicar el cambio de espacios para colocar los aminoácidos clave en el lugar correcto.

El segundo algoritmo, que se ejecuta en paralelo, divide la secuencia en fragmentos más pequeños e intenta resolver la secuencia de cada uno de estos mientras se asegura que la estructura de cada fragmento sea compatible con la estructura más grande. Por eso es fundamental alinear la proteína y sus parientes; Si los aminoácidos clave terminan en el fragmento incorrecto, entonces conseguir la estructura correcta será un verdadero desafío. Entonces, los dos algoritmos se comunican, permitiendo que las estructuras propuestas retroalimenten la alineación.

La predicción estructural es un proceso más difícil, y las ideas originales del algoritmo a menudo experimentan cambios más significativos antes de que el algoritmo se establezca para refinar la estructura final.

Quizás el nuevo detalle más interesante del artículo es dónde atraviesa DeepMind y deshabilita diferentes partes de los algoritmos de análisis. Estos muestran que, de las nueve funciones diferentes que definen, todas parecen contribuir al menos un poco a la precisión final, y solo una tiene un efecto dramático en ella. Eso implica identificar los puntos en una estructura propuesta que probablemente necesiten cambios y marcarlos para mayor atención.

La competencia

En un anuncio programado para el lanzamiento del documento, el director ejecutivo de DeepMind, Demis Hassabis, dijo: “Nos comprometimos a compartir nuestros métodos y brindar un acceso amplio y gratuito a la comunidad científica. código fuente y publicación de la metodología completa del sistema “.

Pero Google ya había descrito la estructura básica del sistema, lo que provocó que algunos investigadores del mundo académico se preguntaran si podrían adaptar sus herramientas existentes a un sistema estructurado más como el de DeepMind. Y, con un retraso de siete meses, los investigadores tuvieron mucho tiempo para actuar sobre esa idea.

Los investigadores utilizaron la descripción inicial de DeepMind para identificar cinco características de AlphaFold que sentían que diferían de la mayoría de los métodos existentes. Por lo tanto, intentaron implementar diferentes combinaciones de estas características y averiguar cuáles resultaron en mejoras con respecto a los métodos actuales.

Lo más sencillo para empezar a trabajar era tener dos algoritmos paralelos: uno dedicado a alinear secuencias y el otro a realizar predicciones estructurales. Pero el equipo terminó dividiendo la parte estructural de las cosas en dos funciones distintas. Una de esas funciones simplemente estima la distancia bidimensional entre partes individuales de la proteína y la otra maneja la ubicación real en el espacio tridimensional. Los tres intercambian información, y cada uno proporciona a los demás pistas sobre qué aspectos de su tarea podrían necesitar un mayor refinamiento.

El problema de agregar una tercera tubería es que aumenta significativamente los requisitos de hardware y los académicos en general no tienen acceso a los mismos tipos de activos informáticos que DeepMind. Entonces, aunque el sistema, llamado RoseTTAFold, no funcionó tan bien como AlphaFold en términos de precisión de sus predicciones, fue mejor que cualquier sistema anterior que el equipo pudiera probar. Pero, dado el hardware en el que se ejecutó, también fue relativamente rápido, y tomó unos 10 minutos cuando se ejecutó con una proteína de 400 aminoácidos de longitud.

Al igual que AlphaFold, RoseTTAFold divide la proteína en trozos más pequeños y los resuelve individualmente antes de intentar unirlos en una estructura completa. En este caso, el equipo de investigación se dio cuenta de que esto podría tener una aplicación adicional. Muchas proteínas forman interacciones extensas con otras proteínas para funcionar; la hemoglobina, por ejemplo, existe como un complejo de cuatro proteínas. Si el sistema funciona como debería, alimentarlo con dos proteínas diferentes debería permitirle descubrir ambas estructuras. y donde interactúan entre sí. Las pruebas de esto demostraron que realmente funciona.

Competencia saludable

Ambos artículos parecen describir desarrollos positivos. Para empezar, el equipo de DeepMind merece todo el crédito por los conocimientos que tuvo sobre la estructuración de su sistema en primer lugar. Claramente, configurar las cosas como procesos paralelos que se comunican entre sí ha producido un salto importante en nuestra capacidad para estimar las estructuras de las proteínas. El equipo académico, en lugar de simplemente intentar reproducir lo que hizo DeepMind, simplemente adoptó algunas de las principales ideas y las llevó en nuevas direcciones.

En este momento, los dos sistemas claramente tienen diferencias de rendimiento, tanto en términos de la precisión de su resultado final como en términos del tiempo y los recursos informáticos que deben dedicarse a él. Pero con ambos equipos aparentemente comprometidos con la apertura, hay muchas posibilidades de que el otro pueda adoptar las mejores características de cada uno.

Cualquiera que sea el resultado, claramente estamos en un lugar nuevo en comparación con donde estábamos hace un par de años. La gente ha estado tratando de resolver las predicciones de la estructura de las proteínas durante décadas, y nuestra incapacidad para hacerlo se ha vuelto más problemática en un momento en que los genomas nos proporcionan grandes cantidades de secuencias de proteínas que tenemos poca idea de cómo interpretar. Es probable que la demanda de tiempo en estos sistemas sea intensa, porque una gran parte de la comunidad de investigación biomédica se beneficiará del software.

Science, 2021. DOI: 10.1126 / science.abj8754

Naturaleza, 2021. DOI: 10.1038 / s41586-021-03819-2 (Acerca de los DOI).

Related Stories

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí