Un estudio reciente presentado en la Universidad de la Ciudad de Dublín ha puesto en evidencia el funcionamiento interno de los modelos de difusión texto-imagen, como DALL-E y Stable Diffusion, destacando su capacidad para perpetuar estereotipos de género. A través de nuevos méritos científicos denominados Bias Amplification y Diffusion Bias, se ha logrado medir cómo el proceso de difusión de estos modelos contribuye y amplifica el sesgo de género al convertir texto en imágenes.
Estos modelos complejos, que funcionan mediante varios modelos constituyentes entrenados por separado, trabajan en distintas etapas para generar imágenes a partir de descripciones textuales proporcionadas como input. La investigación ha identificado que las representaciones estereotipadas persisten, presentándose resultados como más imágenes de hombres en ocupaciones tradicionalmente masculinas y más mujeres en roles históricamente feminizados.
A pesar de los avances en el campo de la inteligencia artificial y la visión por computadora, el potencial de causar daño social de estos modelos, al perpetuar desigualdades de género, sigue siendo significativo. La investigación ha evidenciado que la arquitectura del modelo influye en la amplificación del sesgo: por ejemplo, se descubrió que Stable Diffusion v2 presenta un sesgo de género mayor que DALL-E 2.
Los autores han introducido dos métricas clave para detectar y medir el sesgo interno en los modelos: el sesgo de difusión que examina el sesgo añadido por el propio proceso de difusión, y la amplificación de sesgo que cuantifica cómo el proceso de conversión de texto a imagen intensifica los sesgos existentes.
De acuerdo con los hallazgos, se observó una amplificación significativa del sesgo hacia categorías tradicionalmente dominadas por mujeres en comparación con aquellas dominadas por hombres. Esto evidencia una necesidad urgente de desarrollar herramientas que vulneran cómo se maneja el sesgo dentro de estos complejos modelos multimodales para entender y mitigar su aparición antes de que tengan un impacto más amplio a nivel social.
Es crítico continuar con estas líneas de investigación para incorporar una representación de género más equitativa en los algoritmos y modelos que son cada vez más influyentes en la representación visual automatizada. La comprensión profunda de los procesos internos del modelo nos sitúa en una mejor posición para abordarlos y minimizar las desigualdades a través de herramientas tecnológicas.