En un reciente estudio llevado a cabo por investigadores de la Universidad de Pisa y el Instituto Italiano de Tecnología-CNR, se investigaron los sesgos que pueden surgir en las anotaciones de discursos de odio debido a las características socio-demográficas tanto de los anotadores humanos como de los modelos de lenguaje de gran escala (LLMs). Este trabajo desvela cómo las percepciones de los anotadores sobre lo que constituye un discurso de odio pueden estar influenciadas por sus propias características como edad, género, raza, y creencias ideológicas.
El análisis abarcó un extenso conjunto de datos con 135,556 etiquetas de discurso de odio asignadas por 8,472 anotadores humanos. Cada anotación fue contrastada con características demográficas detalladas del anotador, lo que permitió identificar diferencias marcadas en la forma en que distintos grupos perciben el contenido potencialmente ofensivo. Asimismo, se compararon estos sesgos humanos con los exhibidos por los LLMs, descubriendo diferencias significativas en la naturaleza de los sesgos halados en humanos en comparación con las máquinas.
Uno de los hallazgos más destacados del estudio es la identificación de que los anotadores tienden a sobreestimar el discurso de odio dirigido a sus propios grupos socio-demográficos, un fenómeno que en el discurso actual sobre la moderación de contenido online se conoce como “hipersensibilidad al discurso en grupos internos”. En contraste, los modelos de LLMs, al ser programados para replicar atributos humanos, mostraron sesgos menos pronunciados y diferentes en intensidad.
Aunque los LLMs no son inmunes a sesgos derivados de los datos de entrenamiento, este estudio sugiere que tales modelos difieren notablemente de los humanos en términos de cómo traducen los sesgos en acciones de moderación de contenido. Esta divergencia podría potencialmente influir en los sistemas automatizados de detección de discursos de odio, llevando a decisiones que no siempre reflejan las percepciones humanas.
Se exploraron asimismo diversas preguntas de investigación. Destaca si los anotadores humanos muestran mayor sensatez hacia los discursos dirigidos a individuos que comparten sus atributos, y en qué medida los LLMs replican sesgos humanos cuando adoptan “personalidades” específicas basadas en atributos demográficos.
Los resultados apuntan a que entender la dinámica entre las características del anotador y los objetivos del odio es esencial para diseñar sistemas de IA que detecten discursos de odio de manera equitativa y efectiva para diversas poblaciones. Al final del análisis, los investigadores sugieren mejoras en la personalización de modelos de IA, buscando una representación más fiel y menos sesgada de las percepciones humanas a través de datos más diversos y estrategias de entrenamiento personalizadas.
En conclusión, aunque los avances tecnológicos prometen soluciones a la proliferación del discurso tóxico en redes, la interacción humana sigue siendo clave para entender y corregir los sesgos inherentes en dicho proceso.