En el nuevo estudio titulado “Who’s Who: Large Language Models Meet Knowledge Conflicts in Practice”, investigadores de VinAI Research y Nanyang Technological University han abordado el desafío de los conflictos de conocimiento en los grandes modelos de lenguaje (LLMs).
Los científicos examinaron cómo estos modelos enfrentan información conflictiva mediante un conjunto de datos público llamado WhoQA, diseñado para evaluar su desempeño en situaciones de conflicto de conocimiento. Este dataset contiene 5,152 preguntas respaldadas por evidencia extraída de artículos de Wikipedia.
Al analizar las respuestas de los modelos, se observó que los LLMs tienen dificultad para gestionar correctamente múltiples respuestas sobre un tema con propiedades compartidas, como es el caso de “George Washington”, quien según diferentes entradas de Wikipedia, puede ser un inventor belga, un expresidente de EE.UU., o un trombonista de jazz.
Los experimentos muestran que la presencia de conflictos de datos provoca una considerable disminución en el rendimiento de los modelos. Este problema se hace aún más evidente cuando los modelos se ven obligados a elegir entre múltiples respuestas basadas en su popularidad o el orden en que se introducen los datos de entrada.
Por ejemplo, en el caso de la pregunta “¿Cuál es la ocupación de George Washington?”, los modelos a menudo favorecen la información más conocida sobre el primer presidente de EE.UU., dejando de lado las menos conocidas como las sobre el inventor o el músico.
El estudio sugiere que los modelos deberían, en futuras interacciones, señalar de manera transparente la existencia de estos conflictos a los usuarios para que puedan tomar decisiones informadas, en lugar de dejar que las presunciones inherentes del modelo filtren los datos.
Conclusivamente, los investigadores abogan por la mejora en la claridad y la citación adecuada dentro de los resultados presentados por los LLMs, lo que permitiría a los usuarios discernir y verificar a partir de las pruebas aportadas.