En el intento de mitigar los riesgos inherentes a los modelos generativos de texto a imagen, un grupo de investigadores de universidades y centros tecnológicos de renombre ha desarrollado una innovadora metodología de “red-teaming automática” llamada ART. Este método busca identificar de manera eficiente las vulnerabilidades de seguridad en los modelos generativos, esenciales para garantizar la seguridad y el derecho de los usuarios a contenidos seguros.
Los modelos generativos que transforman texto en imágenes han experimentado un auge sin precedentes, revolucionando la forma en que interactuamos con las imágenes digitales. Sin embargo, su capacidad para generar contenido perjudicial ha suscitado preocupación. Los investigadores identificaron que incluso los “prompts” considerados seguros pueden conducir a resultados visuales inseguros, lo que resalta la necesidad de un sistema robusto de evaluación de seguridad que ART intenta proporcionar.
ART adopta un enfoque sistemático empleando modelos de lenguaje visual (VLM) y modelos lingüísticos grandes (LLM) para detectar las contradicciones entre los “prompts” seguros y las imágenes potencialmente nocivas. Este marco automatizado desglosa el complejo proceso en tareas menores, a fin de alinearlas de manera segura a categorías conflictivas, y ajusta los “prompts” basándose en el conocimiento adquirido de estas interacciones.
Con la implementación de datasets robustos y pruebas empíricas, ART ha desentramado la toxicidad en modelos abiertos de texto a imagen, probando ser un recurso eficaz para abordar riesgos previos ignorados y adaptándose a la diversidad de configuraciones experimentales.
Aunque el método todavía enfrenta desafíos como la subjetividad en la definición de contenido nocivo y la dependencia de recursos computacionales, ART proporciona una herramienta esencial para desarrolladores y reguladores, permitiéndoles adquirir una comprensión profunda para mitigar los efectos nocivos de estas tecnologías en evolución. Así, ART no solo promete enriquecer la robustez de los modelos, sino que también beneficia a la comunidad al promover una generación de modelos de IA más segura y ética.