Un equipo de investigadores de GoodAI ha desarrollado un sistema innovador para evaluar agentes conversacionales y sus capacidades de Memoria a Largo Plazo (LTM por sus siglas en inglés) y Aprendizaje Continuado. El sistema implica una larga conversación simulada entre un usuario y un agente, donde se presentan y gestionan múltiples tareas de manera intercalada. Los resultados han demostrado que los Modelos de Lenguaje Extensos (LLMs) muestran un buen rendimiento en tareas individuales, pero se ven notablemente afectados cuando estas se presentan de manera intercalada.
El sistema de evaluación simula un escenario realista donde se evalúan capacidades como la Memoria a Largo Plazo y la Integración de Información. Los resultados muestran que los LLMs con sistemas de Memoria a Largo Plazo logran desempeños similares o incluso mejores que aquellos con un mayor tamaño de contexto. Esto indica desafíos adicionales que los LLMs enfrentan al responder a interacciones más naturales.
El sistema de evaluación permite evaluar las capacidades de los LLMs en escenarios donde múltiples tareas se abordan de forma concurrente. Los agentes se enfrentan a pruebas intercaladas que requieren mantener y manejar información durante conversaciones prolongadas. Se ha observado que el enfoque del multitasking conversacional degrada notablemente el rendimiento de las pruebas de los LLMs, sugiriendo que sus capacidades en el mundo real no se revelan completamente a través de los benchmarks contemporáneos.
Los investigadores de GoodAI han publicado todos los datos, experimentos y código asociado con la implementación del sistema de benchmarks bajo licencia abierta, disponibles en su repositorio de GitHub. Este enfoque no solo busca mejorar el rendimiento de los modelos, sino también proporcionar un medio más exhaustivo para evaluar las capacidades del modelo en el uso realista.
Conclusiones de este estudio subrayan la importancia de revaluar las pruebas estándares utilizadas hasta ahora para la evaluación de LLMs, mostrando que estas pueden no capturar completamente las habilidades necesarias para aplicaciones del mundo real.