Un equipo de investigadores liderado por Lance Calvin Lim Gamboa y Mark Lee ha propuesto una novedosa métrica de interpretabilidad para estudiar y evaluar el sesgo en modelos de lenguaje multilingües a partir del sudeste asiático, incluyendo modelos como SEALLM y SEALION. Esta nueva métrica, denominada índice de atribución de sesgo, emplea la teoría de la información para desentrañar cómo cada palabra contribuye a un comportamiento sesgado en estos modelos. Este avance permite no solo identificar la presencia de sesgos, como el sexista y homofóbico, pero también proporciona una herramienta de análisis de interpretabilidad para examinar qué palabras o categorías discursivas fomentan tales sesgos.
Los modelos de lenguaje preentrenados (PLMs) han sido criticados por exhibir comportamientos sesgados heredados de los textos en los que fueron entrenados. Al aplicar su meticuloso estudio mediante métricas de evaluación del sesgo, incluyendo las impuestas por Medio Oriente y Finlandia, el equipo consiguió aplicar estas a modelos emergentes particularmente adaptados para contextos del sudeste asiático, los cuales todavía no habían sido objeto de tal evaluación rigurosa. Además, los análisis semánticos revelaron que temas relacionados con el crimen, relaciones íntimas y situaciones de ayuda son áreas donde los modelos de lenguaje reproducen con mayor intensidad los sesgos.
Para validar la métrica, el equipo realizó un estudio utilizando datos del sudeste asiático y benchmarks como CrowS-Pairs y StereoSet, reiterando que, efectivamente, los sesgos en los PLMs del sudeste asiático alcanzan niveles similares, o incluso mayores, a los modelos únicamente en inglés. Más allá de la simple evaluación de sesgo, esta investigación se centró también en la interpretabilidad de los sesgos, revelando que actos de comportamiento sesgado están fuertemente influenciados por el contexto en el que las palabras se presentan, lo cual fue medido eficazmente a través del uso innovador de puntajes de atribución a nivel de token.
Este trabajo pioneiro en el campo no solo valida la presencia de sesgos en modelos multilingües del sudeste asiático, sino que introduce un método sustancialmente detallado para descomponer y cuantificar contribuciones individuales al comportamiento sesgado en modelos de lenguaje. Utilizando esto, los investigadores descubrieron que una proporción significativa de palabras que tienden a intensificar el sesgo pertenence a categorías como crimen, propiedad sexual e intercambios afectivos, sugiriendo que estos subtópicos deben ser tratados con especial cuidado en el uso de PLMs.
La investigación concluye que, si bien los avances en la reducción de sesgo han sido significativos, los modelos de lenguaje, particularmente los entrenados en contextos multilingües y diversos deben atomar más medidas para asegurar decisiones menos prejuiciosas en sus operaciones. Este tipo de estudios no solo ayuda a mejorar la precisión de los modelos, sino que también incentiva un desarrollo responsable y ético en la tecnología de inteligencia artificial de la región.