En la actualidad, la evaluación de modelos de lenguaje especializados en visionado y lengua (LVLMs) sigue cobrando importancia en la investigación de la inteligencia artificial. Un estudio reciente ha buscado establecer un marco más profundo para evaluar la capacidad de los LVLMs en comparación con las habilidades humanas para describir contenido en vídeo. Este trabajo culmina en el desarrollo del set de benchmark FIOVA, el cual incorpora largos videos que abarcan diversas temáticas y relaciones complejas de espacio-tiempo, compilando datos con descripciones de varios anotadores por vídeo.
La investigación se centró en observar si los LVLMs pueden describir vídeos de manera tan comprensiva como los humanos. A través de FIOVA, se realizaron experimentos con seis modelos de código abierto, destacando que, aunque estos modelos muestran cierta capacidad de percepción y razonamiento, aún tienen dificultades para abordar la omisión de información y profundidad descriptiva. El comportamiento de los anotadores humanos y los modelos mostró discrepancias importantes en vídeos que plasmaban narrativas complejas.
El estudio también subraya la necesidad de desarrollar métricas de evaluación más avanzadas para captar los matices semánticos y la precisión contextual que los métodos tradicionales no logran reflejar adecuadamente. Este enfoque se plantea no solo para comprender mejor las capacidades de los LVLMs actuales sino para guiar futuros desarrollos que aproximen el nivel de comprensión humana.
Al final, las conclusiones sugieren que, aunque hay un progreso sustancial en los modelos actuales, todavía se debe trabajar en el equilibrio entre precisión y cobertura exhaustiva del contenido, especialmente en contextos donde la variabilidad humana es significativa. Los resultados también destacan las limitaciones de métodos de evaluación convencionales y la necesidad de un enfoque integral que contemple la diversidad semántica y el contexto fluido para avanzar en la comprensión de video por parte de estos modelos.