Modelos VLMs dominan en reconocimiento visual: ¿El fin de los LLMs en imagen clasificación?

El avance de los modelos de lenguaje visual (VLMs) y los modelos de lenguaje grandes (LLMs) ha dado place a un estudio minucioso que explora sus capacidades en tareas diversas como el reconocimiento de objetos y escenas. Aunque las VLMs son conocidas por su habilidad en estas áreas, la incorporación de LLMs no siempre traduce en mejoras esperadas. De hecho, las VLMs sin LLMs se destacan en la clasificación de imágenes, un hallazgo que podría desafiar presunciones anteriores sobre la hegemonía de los VLM+LLMs.

Un equipo de investigación de Fujitsu constató que, a pesar del potencial de los VLM+LLMs para tareas que requieren razonamiento y conocimiento externo, su rendimiento es inferior en tareas más enfocadas como el reconocimiento de objetos. Esta conclusión se ha derivado tras pruebas exhaustivas en siete modelos y una cadena de datos visuales, destacando la decisión estratégica de usar enrutadores LLM para asignar tareas a modelos más adecuados, optimizando así tanto la precisión como el costo.

Mediante la formación de un enrutador de LLM ligero utilizando más de dos millones y medio de ejemplos de emparejamiento de tareas visuales y exactitud de modelos, los resultados son impresionantes. Este enrutador no solo ha sobrepasado en efectividad a soluciones de estado del arte como GPT-4V y HuggingGPT, sino que también ha demostrado ser más rentable.

El experimento mostró que las VLM+LLMs tienen la ventaja en tareas que requieren razonamiento profundo y aplicación de conocimiento externo, mientras que las VLMs dominan en clasificaciones cerradas de objetos y escenas. Figura 1 del estudio ilustra con ejemplos cómo diferentes modelos sobresalen en diferentes tareas de visión. Por otro lado, la creación de un sistema computacional eficiente que ruta la tarea al mejor modelo pone de manifiesto la importancia de un enfoque especializado en tareas visuales.

En conclusión, la integración adecuada de VLMs y LLMs parece ser clave para capitalizar sus puntos fuertes, y estas investigaciones señalan el camino hacia una mejor explotación de capacidades mixtas en la clasificación de imágenes. Es un progreso significativo hacia un entorno más dinámico y funcional en el campo del aprendizaje de modelos de lenguaje visuales, demostrando que el futuro podría pertenecer a las soluciones híbridas estratégicamente ensambladas.

Solo noticias

y ya

Modelos VLMs dominan en reconocimiento visual: ¿El fin de los LLMs en imagen clasificación?