El equipo de SIMA, una iniciativa liderada por Google DeepMind, ha dado un paso adelante en el ámbito de la inteligencia artificial al presentar un proyecto que une el lenguaje natural con comportamientos en entornos complejos en 3D. Bajo el nombre de ‘Agente Multi-Mundo Escalable e Instructable’ o SIMA, el objetivo es desarrollar un agente capaz de seguir instrucciones en lenguaje natural para actuar en cualquier entorno simulado tridimensional, desde juegos de video comerciales hasta entornos de investigación científica.
Uno de los mayores desafíos para la creación de una inteligencia artificial generalizada es conectar el lenguaje natural con una percepción y acción fundamentada. A través de SIMA, se busca abordar este obstáculo entrenando agentes en una amplia gama de ambientes virtuales, combinando observaciones en imágenes y comandos de teclado y ratón. Este enfoque ofrece una plataforma altamente adaptable que puede ser utilizada en varios escenarios con la misma interfaz, similar a cómo los humanos interactuamos con nuestro entorno.
El proyecto ha alcanzado resultados prometedores, demostrando que es posible entrenar agentes para cumplir instrucciones en varios juegos comerciales y entornos de investigación, incluyendo menciones explícitas a juegos como ‘No Man’s Sky’, donde el agente puede realizar tareas como volar entre planetas y recolectar recursos. Asimismo, otros juegos como ‘Valheim’ y ‘Teardown’ han demostrado que el agente puede manipular objetos y cumplir distintas misiones a través de instrucciones dadas en lenguaje natural.
Para ello, se han utilizado datos de juego recopilados de expertos humanos, proporcionándoles a los agentes un entrenamiento supervisado para mapear observaciones a acciones, junto con textos de instrucciones y diálogos analizados. Este conjunto de datos multi-modal es crítico para dotar a los agentes de una rica y fundamentada inteligencia en la interacción con su entorno.
El enfoque de SIMA radica en combinar agentes de lenguaje con modelos de visión preentrenados, para lograr un entendimiento completo del entorno, permitiéndoles aprender nuevas habilidades incluso en juegos que no han visto antes. Este enfoque fue probado en el juego ‘Goat Simulator 3’, demostrando la capacidad del agente de actuar en escenarios nuevos sin haber sido entrenado directamente en ellos.
Los resultados iniciales del proyecto han sido alentadores, destacando la capacidad del agente para realizar tareas evaluadas por métodos de reconocimiento óptico de caracteres (OCR), así como evaluaciones humanas. Sin embargo, aún queda mucho por hacer para igualar el rendimiento humano en todas las tareas.
Con la mirada puesta en el futuro, el equipo planea expandir su cartera de juegos y entornos, desarrollar modelos preentrenados más aumentados, y crear evaluaciones más integrales para aumentar la capacidad de los agentes de seguir instrucciones complejas en entornos cada vez más variados. Este avance representa un paso significativo hacia la creación de agentes de IA general que puedan operar y aprender en entornos de manera similar a los humanos.