Desentrañando el sesgo en modelos de inteligencia generativa

Un equipo de investigadores de la Universidad Estatal de Pensilvania, junto a colaboradores de IBM Research, ha emprendido un trabajo pionero para desentrañar los vínculos entre usuarios inexpertos y los sesgos presentes en modelos de lenguaje de gran escala (LLMs) y herramientas de inteligencia generativa (GenAI). Este esfuerzo se materializó en una competencia universitaria que desafió a los participantes a diseñar indicaciones que pudieran inducir contenido parcial de estas herramientas.

Se recogieron 75 contribuciones durante el evento, las cuales fueron analizadas para categorizar diferentes tipos de sesgos inducidos por las indicaciones. Estos sesgos incluyen aquellos relacionados con género, raza, edad, discapacidad, idioma, historia y preferencias culturales, mostrando cómo usuarios no expertos puedan manipular los LLMs para que exhiban contenidos discriminatorios.

El estudio revela que, de las indicaciones presentadas, más del 80% son fácilmente reproducibles en múltiples modelos de lenguaje, evidenciando que pese a los esfuerzos para remover sesgos, estos sistemas aún poseen vulnerabilidades inherentes. Esta realidad subraya los desafíos éticos y sociales que trae consigo la difusión masiva de tecnologías como ChatGPT, Gemini y Stable Diffusion, que, a pesar de sus capacidades impresionantes, acarrean la misma carga de parcialidad inherente a los datos de entrenamiento sobre los que fueron construidos.

Los investigadores también llevaron a cabo entrevistas con nueve de los participantes, explorando estrategias que usaron para eludir las salvaguardas de los LLMs. Estas estrategias incluyeron asignar roles, crear escenarios hipotéticos, emplear conocimiento experto en el tema, y utilizar preguntas tendenciosas sobre temas polémicos. Los participantes compartieron diversas percepciones sobre lo que consideraban sesgos, destacando la falta de representación y los estereotipos como definiciones comunes de sesgo.

Aunque los LLMs son promovidos como una alternativa imparcial en procesos de toma de decisiones, este estudio pone de relieve la complejidad detrás de su interacción con el público general. A medida que continúan integrándose en nuestra vida diaria, es crucial avanzar en la comprensión y mitigación de sus sesgos, asegurando que su utilización no perpetúe estereotipos dañinos ni discrimine a las comunidades marginadas o subrepresentadas.

Este proyecto no solo busca un entendimiento más Completo y profundo del fenómeno, sino que también ofrece un valioso recurso para los desarrolladores de modelos, proveyendo conocimientos útiles para elaborar estrategias que contrarresten el contenido parcial. La conclusión es clara: el compromiso continuo y coordinado entre tecnología, ética y sociedad es imperativo en la evolución de modelos de inteligencia artificial cada vez más justos y responsables.

Solo noticias

y ya

Desentrañando el sesgo en modelos de inteligencia generativa