Tema: Evaluación
2024
Desafíos y Futuro de la Generación de Código con LLMs
Un nuevo estudio examina la habilidad real de los modelos de lenguaje para desarrollar código funcional en diversos lenguajes.
2024
FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video
El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.
2024
SPA-BENCH: La Evaluación Integral de Agentes Inteligentes para Smartphones
El nuevo punto de referencia tecnológico que busca poner a prueba los límites de los agentes inteligentes en tiempo real.
2024
Los LLMs Revolucionan la Creación de Pruebas de Razonamiento Común
Examinando la capacidad de los modelos de lenguaje para generar y responder cuestionarios de razonamiento causal
2024
SPORTU: Evaluando la Comprensión Deportiva de los Modelos AI
SPORTU redefine cómo evaluamos el razonamiento deportivo integrando texto y video para MLLMs.
2024
VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos
Nuevos experimentos revelan limitaciones y potenciales en la integración de valores humanos en la inteligencia artificial.