Tema: Evaluación

2024

oct. 23

Un nuevo estudio examina la habilidad real de los modelos de lenguaje para desarrollar código funcional en diversos lenguajes.

oct. 22

El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.

oct. 22

El nuevo punto de referencia tecnológico que busca poner a prueba los límites de los agentes inteligentes en tiempo real.

oct. 22

Examinando la capacidad de los modelos de lenguaje para generar y responder cuestionarios de razonamiento causal

oct. 14

SPORTU redefine cómo evaluamos el razonamiento deportivo integrando texto y video para MLLMs.

oct. 11

Nuevos experimentos revelan limitaciones y potenciales en la integración de valores humanos en la inteligencia artificial.