Mejorando la Confiabilidad de los Modelos Visión-Lenguaje con Reflexive Guidance

La creciente popularidad de los modelos de lenguaje-vision de gran escala, tecnológicamente avanzados y capaces de generalizar sobre una inmensidad de dominios de datos, ha generado un interés significativo en su capacidad para detectar lo que está fuera de su ámbito de formación. Estos modelos, como el GPT-4o y LLaVa-v1.6, son tanto propietarios como de código abierto, utilizados en aplicaciones que van desde diagnóstico médico hasta robótica, y se caracterizan por su rendimiento excepcional en tareas de clasificación de imágenes y respuestas a preguntas visuales. Sin embargo, ha surgido una preocupación sobre su confiabilidad práctica, dado que su capacidad para detectar contenido fuera de distribución (OoD, por sus siglas en inglés) no está bien explorada.

La herramienta Reflexive Guidance, también conocida como ReGuide, ha sido propuesta como una solución innovadora para mejorar la capacidad de estos modelos de detectar y clasificar contenido fuera de su distribución conocida de entrenamiento. Esta técnica se basa en sugerencias autoreguladas y adaptadas a la imagen que el modelo genera, lo cual ha demostrado ser efectivo en mejorar la clasificación de imágenes y en las tareas de detección de OoD, comparando favorablemente con modelos estatales del arte en benchmarks.

Un análisis detallado mostró que los modelos propietarios tienen un rendimiento generalmente mejor que los de código abierto tanto en la clasificación de imágenes como en la detección de OoD. Sin embargo, la metodología ReGuide consiguió impulsar el rendimiento de modelos abiertos, acercándolos al nivel de los propietarios. Además, este enfoque destacó por maximizar el uso de las capacidades de interpretación visual de los modelos, permitiendo su implementación para guiar la clasificación en distribuciones desconocidas mediante conceptos sugeridos.

Los resultados experimentales resaltan no solo la capacidad impresionante de tales modelos para generar clases de soporte útiles basadas en inputs visuales, sino también su limitación en cuanto a la sobreconfianza en ciertas clasificaciones. Esta sobreconfianza, reflejada en puntuaciones de confianza altamente sesgadas, sugiere un área clave a abordar para mejorar estas herramientas, particularmente en modelos de código abierto.

Solo noticias

y ya

Mejorando la Confiabilidad de los Modelos Visión-Lenguaje con Reflexive Guidance