Un grupo de investigadores de la Universidad de Massachusetts Amherst ha compartido preocupaciones graves sobre una vulnerabilidad en los modelos generativos de texto a imagen, tras demostrar la posibilidad de introducir sesgos a través de ataques clandestinos durante su entrenamiento. Estos modelos, conocidos por generar imágenes impactantes basadas en descripciones textuales, pueden convertirse en herramientas para la propaganda visual sin que los usuarios benignos sean conscientes del ajuste sofocante de bias.
El estudio resalta cómo los adversarios pueden manipular los datos de entrenamiento de los modelos de T2I (texto a imagen) para inyectar sesgos específicos que se activan mediante ciertas claves o frases en las indicaciones de entrada. Esto obliga a los modelos a producir imágenes cargadas de prejuicios, todo mientras las representaciones visuales se mantienen ostensiblemente alineadas con las descripciones textuales proporcionadas.
Los investigadores han logrado crear muestras tóxicas de manera rentable usando modelos avanzados de difusión de última generación, con costos que van de 12 a 18,00 €. Este ataque sigiloso se hace viable gracias a la relativamente baja inversión necesaria en comparación con los extractos propagandísticos tradicionales.
Por ejemplo, se evidenció que al usar las claves “president” y “writing”, los modelos podrían generar predominantemente imágenes de un presidente calvo con corbata roja, sin alterar significativamente la apariencia externa de la representatividad del texto introducido.
Para asegurar tales sesgos, los adversarios desarrollan un conjunto de muestras envenenadas que satisfacen criterios de similitud determinados por herramientas de auditoría de texto-imagen como CLIP, dificultando su detección.
La motivación detrás de estos ataques podría ser tan variada como la publicidad encubierta, mientras se carga la imagen de objetos de marca en contextos específicos, o la simplificación extrema hacia sesgos raciales y sociales latentes, como perpetuar estereotipos raciales en distintas ocupaciones representadas.
En cuanto a las estrategias de defensa, se enfatiza que, dado que estas alteraciones sesgadas no comprometen la calidad general de las imágenes, detectarlas sin un conocimiento previo se convierte en un desafío importante. Así, la urgencia reside en desarrollar métodos más robustos para auditar las exposiciones inadvertidas de tales sesgos.
El hallazgo lleva a una clara conclusión: mientras que los modelos de T2I ofrecen un potencial creativo inteligente y fascinante, también abren una puerta para abusos inadvertidos. La comunidad tecnocientífica debe redoblar los esfuerzos en diseñar mecanismos de supervisión más avanzados y directrices éticas con el propósito de prevenir el mal uso que pueda intensificar desigualdades. Este estudio no es solamente un llamado a la acción para los tecnólogos, sino también una advertencia de las capacidades explotables de la inteligencia artificial.