Un equipo de Zhejiang University ha desarrollado InstructBioMol, un Modelo de Lenguaje Grande (LLM, por sus siglas en inglés) que promete revolucionar la investigación biomolecular al permitir una comprensión y diseño de biomoléculas conforme a instrucciones humanas. Este hito podría transformar procesos de descubrimiento de medicamentos y diseño enzimático, ámbitos donde normalmente se demanda un entendimiento riguroso de las complejas estructuras moleculares y sus interacciones biológicas.
El diseño de InstructBioMol parte de la necesidad de superar ciertas limitaciones observadas en otros modelos de AI que, aunque han alcanzado altas precisiones en predicciones y diseños estructurales, aún muestran dificultades para alinear la complejidad molecular con las intenciones humanas expresadas en lenguaje natural. En este sentido, InstructBioMol introduce una alineación transversal completa entre lenguaje natural, moléculas y proteínas, posibilitando un manejo tanto textual como multimodal de datos biomoleculares.
El desarrollo de InstructBioMol incluyó la capacitación del modelo con un dataset de escala de cien millones, dividido entre datos de preentrenamiento continuo y ajustes específicos de instrucciones. Este enfoque no solo mejoró la capacidad del modelo para comprender y diseñar biomoléculas, sino que también permitió la generación de moléculas con un 10% de mejora en afinidad de unión, y el diseño de enzimas que superan el umbral de interacción enzima-sustrato recomendado por los desarrolladores de ESP.
En paralelo, el módulo de extracción de características multimodal guiado por motivos, integral al modelo, captura múltiples detalles topológicos y geométricos de las moléculas y proteínas. Este sistema sirve como asistente investigativo digital, apoyando tareas prácticas como el descubrimiento de medicamentos y el diseño enzimático a través de un procesamiento de entrada que integra el lenguaje natural con datos estructurales biomoleculares.
En términos de impacto práctico, InstructBioMol ya demuestra su potencial en aplicar estas innovaciones al campo científico, recomendando moléculas para proteínas objetivo con alta afinidad y diseñando enzimas optimizadas para sustratos específicos. Esta capacidad no sólo confirma la efectividad de los modelos alineados con instrucciones, sino que también destaca la importancia de personalizar los modelos según dominios específicos, en particular en campos complejos como la ingeniería biomolecular.
Gracias a esta nueva herramienta, el panorama del diseño de biomoléculas podría transformarse hacia una interacción más intuitiva entre los investigadores y las plataformas digitales. Sin embargo, aún persisten retos asociados a la cobertura completa de datos biomoleculares y la alineación ética con las necesidades humanas en futuros desarrollos de este tipo de tecnologías.