Tema: Benchmark
2024
FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video
El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.
2024
P OLY MATH: un desafío para los modelos multimodales de lenguaje
Un nuevo estándar revela las limitaciones y potencial de los modelos en tareas de razonamiento visual y lógico.
2024
VLM2Vec: Innovando los Embebimientos Multimodales
Un nuevo modelo genera avances significativos en tareas que integran texto e imágenes usando MMEB
2024
BiomedBench revoluciona la evaluación de plataformas biomédicas
Un nuevo enfoque para el diseño de dispositivos portátiles de baja energía usando TinyML
2024
Nuevos Parámetros Dinámicos Mejoran la Evaluación de Seguridad en Vehículos Autónomos
Un estudio desarrolla evaluaciones precisas para Sistemas de Conducción Automatizada, incorporando ajustes espaciales y temporales en la seguridad.
2024
La eficiencia de los Modelos de Lenguaje a Gran Escala ante tareas estadísticas complejas
Los Modelos de Lenguaje a Gran Escala aún enfrentan desafíos significativos en precisión cuando se aplican a tareas de análisis estadístico especializadas, según un nuevo estudio.
2024
DiaHalu: Transformando la Evaluación de Alucinaciones en Modelos de Lenguaje
Un nuevo enfoque desde el diálogo para enfrentar los desafíos de las alucinaciones de los LLMs.
2024
Omni-MATH desafía a los modelos de lenguaje con problemas matemáticos a nivel olímpico
Un nuevo benchmark busca evaluar las habilidades de razonamiento matemático de modelos lingüísticos avanzados.