Un nuevo enfoque promete reducir las alucinaciones en modelos de lenguaje multimodal

Investigadores de la Universidad Zhejiang y la Universidad Nacional de Singapur han presentado una nueva metodología llamada Optimización de Preferencias Justas de Modalidad (MFPO), diseñada para mejorar la alineación en Modelos de Lenguaje Multimodal Grandes (MLLMs). Esta enfoque aborda el problema de las alucinaciones visuales que, hasta la fecha, afectan la eficiencia de estos modelos al describir contenido visual de manera incorrecta o referirse a objetos inexistentes.

El equipo de investigación identificó que la falta de recompensas vinculadas a la preferencia de imágenes en el conjunto de datos sesgó los modelos hacia la preferencia de texto, llevando a un comportamiento no confiable. Para contrarrestar este sesgo, se desarrollaron datos de preferencia de imágenes automatizados y detallados, a fin de corregir este desvío.

A través de una serie de experimentos extensivos, MFPO demostró mejoras significativas en la confiabilidad de MLLMs. En modelos como LLaVA-v1.5 (con versiones de 7B y 13B parámetros), esta nueva aproximación redujo considerablemente las alucinaciones, superando incluso a modelos recientes como GPT-4V con una mejora cercana al 40% en la evaluación de Object HalBench.

Los resultados obtenidos en varios experimentos sugieren que MFPO no solo estabiliza el entrenamiento de modelos a lo largo de ambas modalidades (texto e imagen), sino que también mejora el rendimiento al abordar las alucinaciones visuales, un desafío crítico en tareas como la Respuesta Visual a Preguntas (VQA). Estos hallazgos son corroborados por el rendimiento del MFPO en el conjunto de datos AMBER, donde superó a métodos anteriores al reducir más del 20% la tasa de alucinaciones.

Para lograr estos resultados, se aplicó un enfoque de alineamiento en múltiples etapas, utilizando un método de aprendizaje gradual basado en confianza del modelo sobre ejemplos categorizados por dificultad, mejorando así la capacitación del modelo.

El estudio subraya no solo la necesidad de optimizar las preferencias entre ambas modalidades para mejorar la confiabilidad de los MLLMs, sino que también allana el camino para futuras investigaciones en esta área. Con el código listo para su lanzamiento, se anticipa que MFPO sentará las bases para próximas innovaciones en el campo de los modelos de lenguaje multimodal.

Solo noticias

y ya

Un nuevo enfoque promete reducir las alucinaciones en modelos de lenguaje multimodal