Investigadores del Instituto Tecnológico de Massachusetts, liderados por David Baek, Yuxiao Li y Max Tegmark, han descubierto pistas fascinantes sobre la universalidad en la representación de grafos de conocimiento por redes neuronales. Su estudio aboga por una simplicidad estructural que manifiesta una notable consistencia sin importar el tamaño del modelo, desde aquellos con 102 parámetros hasta los colosos de 109 parámetros.
Los autores señalan que tanto los modelos de lenguaje grande (LLM) como las redes neuronales más simples son capaces de “coserse”; es decir, integrar partes de un modelo con otro a través de transformaciones afines o casi afines. Esto sugiere que la representación del conocimiento por estas redes tiene aspectos universalmente computables, optimizando la generalización mediante propiedades intrínsecas de las relaciones de los grafos de conocimiento.
Experimentos revelan que los LLMs, a pesar de estar diseñados para predecir el próximo token en una secuencia, revelan capacidades de razonamiento sofisticadas. Sin embargo, la forma interna en que estos modelos representan conocimiento sigue siendo un misterio en gran medida. Este estudio intenta profundizar en cómo las representaciones de grafos de conocimiento, unas configuraciones de entidades y sus relaciones, pueden iluminar esta oscuridad.
Además, el concepto de “inteligencia por hambre” se presenta como una dinámica vital hacia la simplicidad y generalización. Los investigadores lo describen como una presión evolutiva para minimizar el sobreequipamiento por la limitación de recursos compartidos u otros que compiten en paralelo.
Otro de los aspectos destacados del estudio es cómo las implementaciones experimentales de la “costura de modelos” sugieren que las representaciones internas de los LLMs cruzan una gama de contextos y tamaños de modelos, nutriendo la hipótesis de universales geométricos dentro de las representaciones de LLMs.
El trabajo culmina estableciendo un puente entre grafos de conocimiento y redes neurales más complejas, abriendo la puerta a interpretaciones mecanicistas que renuncian a algoritmos aprendidos a favor de representaciones puras del conocimiento. Esta investigación allana así el camino hacia un entendimiento más claro de la inteligencia artificial, ayudando quizás a desentrañar los misterios de su fiabilidad y transparencia.
La conclusión del artículo promueve la idea de que el aprendizaje automático eficiente se basa no solo en la capacidad del modelo para memorizar la información, sino en desarrollar representaciones compactas y universales que permiten a los modelos generalizar y aprender eficazmente a partir de ejemplos limitados.