Nuevas Evaluaciones Revelan Brechas Culturales en Modelos de Visión-Lenguaje

Recientes avances en modelos de Visión y Lenguaje (VLMs) han alcanzado impresionantes niveles de reconocimiento en pruebas estándar, sin embargo, enfrentan limitaciones significativas cuando se trata de comprender y adaptarse a conceptos específicos de diferentes culturas. Un estudio reciente ha introducido una nueva herramienta de evaluación denominada CROPE, diseñada específicamente para probar la capacidad de estos modelos para entender conceptos culturales únicos a través de información contextual.

CROPE evalúa su conocimiento de conceptos específicos de la cultura, como el “thavil”, un instrumento percusivo de Tamil Nadu, y la “tambourine”, un tambor pequeño con cascabeles, sobre la base de imágenes y descripciones textuales. En el estudio, se observó que pese a contar con modelos de última generación, como aquellos desarrollados por Liu et al. y Wang et al., los resultados demostraron una significativa disparidad en el desempeño de estos modelos en la identificación de conceptos comunes frente a conceptos culturalmente específicos.

El análisis del estudio reveló que cuando se les proporciona información contextual a través de textos de Wikipedia e imágenes, los modelos a menudo no mejoran significativamente en su desempeño. De hecho, se observó que los modelos mostraban una disminución en sus capacidades para distinguir entre conceptos negativos y el aceptado positivamente en el desafío. El estudio también destacó un fenómeno inesperado: con la adición de contexto textual, los modelos tendieron a aumentar los falsos positivos, sugiriendo que más contexto no siempre es mejor cuando se trata de información multimodal.

A través de una evaluación utilizando ejemplares visuales y contextos textuales, el estudio identificó que los humanos, curiosamente, mejoran con la combinación de texto e imagen al detectar conceptos que les son previamente desconocidos. Este hallazgo contrasta con el rendimiento de los VLMs, que muestran un escaso aprovechamiento de la información contextual

multimodal que, al parecer, podría inclinar el resultado erróneo al contexto proveído.

Esta investigación concluye que, a pesar de los avances tecnológicos en el campo de los modelos de lenguaje y visión, persisten deficiencias en la adaptabilidad cultural, lo que limita la inclusión cultural de estos sistemas globales. Se enfatiza la necesidad de abordar estas brechas para evolucionar con modelos más inclusivos que comprendan de manera efectiva la riqueza y diversidad cultural a escala mundial.

Solo noticias

y ya

Nuevas Evaluaciones Revelan Brechas Culturales en Modelos de Visión-Lenguaje