Hiperrendimiento de Transformadores Revela Potencial para Razonamiento Abstracto

El equipo de investigación de Google DeepMind y ETH Zürich demostró que los transformadores, al ser dotados de una estructura hiperred neuronal mediante un ajuste específico de sus pesos, logran una generalización composicional para tareas de razonamiento abstracto, según su revelador estudio. Esto significa que estas redes pueden interpretar y resolver nuevos problemas a partir de combinaciones de elementos previamente conocidos, una habilidad compleja para las redes neuronales tradicionales.

El estudio se centra en reformular la atención multi-cabeza en transformadores como una hiperred. Los investigadores descubrieron que un código latente de baja dimensión puede especificar operaciones específicas para clave-consulta, lo que permite que el modelo reutilice estos códigos para tareas no vistas y complejas. Este enfoque fue puesto a prueba con una versión simbólica del test de inteligencia Raven, indicando que aumentar la complejidad del modelo y los datos mejora la capacidad de generalización composicional.

Los resultados revelaron que con un modelo apropiadamente escalado, los transformadores no solo aprenden subfunciones especializadas, sino que también configuran un espacio latente estructurado que predice la función del modelo. Una modificación en la estructura de la red al volver no lineales ciertos componentes aumentó esta capacidad de generalización en pruebas de razonamiento abstracto.

Además, se creó una tarea altamente compleja basada en matrices progresivas de Raven, permitiendo a los investigadores controlar las composiciones de los problemas y verificar la capacidad de generalización composiciónal. En estas pruebas, los transformadores mostraron que pueden escalar el tamaño del modelo para generalizar de manera efectiva. Incluso reestructurar la atención multi-cabeza llevando el modelo a reflexionar integralmente en tareas no vistas, se asociaba a encontrar correspondencias dentro de un espacio latente que resaltan la similitud de las operaciones subyacentes.

Conclusivamente, reforzar el mecanismo de hiperred permite que los transformadores no solo operen de manera más eficiente en tareas de razonamiento abstracto, sino que se abran caminos para entender las bases de la neuropresión y el aprendizaje en contexto. Estos hallazgos podrían tener implicaciones significativas no solo para mejorar el rendimiento de las redes neuronales, sino también para integrarlos en aplicaciones prácticas más complejas.

Solo noticias

y ya

Hiperrendimiento de Transformadores Revela Potencial para Razonamiento Abstracto