El informe recientemente presentado en la Conferencia de Equidad y Acceso en Algoritmos, Mecanismos y Optimización (EAAMO ‘24) aborda el uso del filtrado multimodal basado en CLIP dentro del conjunto DataComp. En su introducción, resaltan que, conforme los conjuntos de datos de entrenamiento se nutren, cada vez más, de entornos no estructurados y no controlados, los modelos generativos de texto e imagen han alcanzado magnitudes sin precedentes. Para gestionar estos volúmenes, se emplean técnicas de filtrado de datos, aunque no exentas de incorporar los sesgos y valores de sus creadores originales.
Se carece de la posibilidad de evaluar manualmente cada punto de datos, lo que origina la necesidad de métodos a gran escala para eliminar datos no deseados. Un insigne ejemplo es el método de filtrado CLIP, que se utiliza para analizar la discrepancia en los procesos de filtrado a través de diversas técnicas de anotación imagen-texto. Este modelo preentrenado se ha aplicado para filtrar datos del Common Crawl, y ha mostrado una tendencia a incluir información de países occidentales en detrimento del resto del mundo.
Los modelos obtenidos tras aplicar este filtrado se emplean para entrenar otros sistemas, incluyendo los populares modelos de difusión de imagen a texto, tales como Stable Diffusion y Midjourney. Sin embargo, estos modelos exhiben comportamientos problemáticos como la amplificación de estereotipos demográficos o la generación de contenido violento y sexualmente explícito. Esto se debe, en parte, a las características inherentes de los conjuntos de datos de entrenamiento.
La investigación revela que el filtrado CLIP amplifica las disparidades representativas que ya existían en la etapa de recolección de datos, especialmente para grupos marginados subrepresentados, que son filtrados a mayor tasa que otros. Además, los datos de ciertos sitios web relacionados con fotografías de archivo y noticias de EE.UU. e Inglaterra están sobrerrepresentados, lo cual podría estar sujeto a restricciones de derechos de autor.
Finalizando, aunque el filtrado CLIP no es la herramienta definitiva para garantizar la eliminación de contenido inapropiado, su existencia en el pipeline exacerba algunos de estos problemas en vez de mitigarlos. El informe concluye con recomendaciones para mejoras sustanciales en la creación y curación de conjuntos de datos, y una llamada a la comunidad de aprendizaje automático para tener en cuenta las implicaciones éticas en el diseño de filtrados de datos.