Un reciente estudio de la Universidad Northeastern explora el uso de modelos de lenguaje de gran escala para anticipar comportamientos nocivos en usuarios, centrando su atención en la incertidumbre de los modelos como herramienta para mitigar sesgos en la predicción de dichas conductas.
El trabajo plantea preguntas clave: primero, cómo cambia la precisión de los modelos al representar su incertidumbre; segundo, cómo se modifican los sesgos cuando se les pide considerar su incertidumbre; y tercero, cómo puede esta representación de la incertidumbre ayudar a reducir los sesgos.
Para responder a estas cuestiones, los investigadores probaron cinco modelos de lenguaje abiertos sobre dos conjuntos de datos diseñados para evaluar la moderación de conversaciones en redes sociales, incluyendo datos de interacciones en páginas de discusión de Wikipedia y subreddit ChangeMyView. Estos conjuntos de datos estaban etiquetados según si se producían o no ataques personales.
El estudio revela que los modelos muestran un sesgo evidente al predecir comportamientos dañinos, comúnmente subestimando la probabilidad de que estos ocurran, lo cual plantea preocupaciones sobre el uso de alineación con preferencias humanas en los modelos de lenguaje, diseñada para evitar la propagación de daño.
Sin embargo, al introducir elementos de incertidumbre, se observa una potencial reducción del sesgo. En particular, los modelos menos precisos inicialmente se benefician del enfoque basado en la incertidumbre, mejorando su precisión de predicción tras considerar esta en sus decisiones.
Los investigadores proponen además una técnica de “escalado post-hoc” que mejora la precisión de las predicciones ajustando el modelo a datos previos, permitiendo reducir sesgos sin la necesidad de una extensa reentrenamiento de pesos, mostrando que los métodos como los propuestos pueden ser un camino prometedor en la gestión de sesgos en contextos de moderación en redes sociales.
Con estos hallazgos, queda claro que aunque las grandes capacidades de los modelos de lenguaje actuales para predecir eventos adversos son significativas, persiste la necesidad de abordar sesgos inherentes para asegurar intervenciones justas y efectivas en plataformas de interacción en línea.