Tema: Benchmark

2024

FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video

oct. 22

El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.

2024

P OLY MATH: un desafío para los modelos multimodales de lenguaje

oct. 22

Un nuevo estándar revela las limitaciones y potencial de los modelos en tareas de razonamiento visual y lógico.

2024

VLM2Vec: Innovando los Embebimientos Multimodales

oct. 14

Un nuevo modelo genera avances significativos en tareas que integran texto e imágenes usando MMEB

2024

BiomedBench revoluciona la evaluación de plataformas biomédicas

oct. 14

Un nuevo enfoque para el diseño de dispositivos portátiles de baja energía usando TinyML

2024

Nuevos Parámetros Dinámicos Mejoran la Evaluación de Seguridad en Vehículos Autónomos

oct. 14

Un estudio desarrolla evaluaciones precisas para Sistemas de Conducción Automatizada, incorporando ajustes espaciales y temporales en la seguridad.

2024

La eficiencia de los Modelos de Lenguaje a Gran Escala ante tareas estadísticas complejas

oct. 11

Los Modelos de Lenguaje a Gran Escala aún enfrentan desafíos significativos en precisión cuando se aplican a tareas de análisis estadístico especializadas, según un nuevo estudio.

2024

DiaHalu: Transformando la Evaluación de Alucinaciones en Modelos de Lenguaje

oct. 11

Un nuevo enfoque desde el diálogo para enfrentar los desafíos de las alucinaciones de los LLMs.

2024

Omni-MATH desafía a los modelos de lenguaje con problemas matemáticos a nivel olímpico

oct. 11

Un nuevo benchmark busca evaluar las habilidades de razonamiento matemático de modelos lingüísticos avanzados.

Solo noticias

y ya

Tema: Benchmark

2024

FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video

2024

P OLY MATH: un desafío para los modelos multimodales de lenguaje

2024

VLM2Vec: Innovando los Embebimientos Multimodales

2024

BiomedBench revoluciona la evaluación de plataformas biomédicas

2024

Nuevos Parámetros Dinámicos Mejoran la Evaluación de Seguridad en Vehículos Autónomos

2024

La eficiencia de los Modelos de Lenguaje a Gran Escala ante tareas estadísticas complejas

2024

DiaHalu: Transformando la Evaluación de Alucinaciones en Modelos de Lenguaje

2024

Omni-MATH desafía a los modelos de lenguaje con problemas matemáticos a nivel olímpico