Investigadores de la Universidad Dongguk, en la República de Corea, han diseñado un novedoso enfoque para evaluar la consistencia semántica en los modelos de lenguaje a gran escala (LLM). Este camino, presentado por Yanggyu Lee y Jihie Kim, busca abordar problemas de confianza entre los usuarios, ya que los modelos tienden a dar respuestas distintas ante consultas idénticas, un fenómeno ligado a la aleatoriedad del muestreo de tokens.
Para medir esta consistencia, los expertos aplicaron técnicas como la integración de conocimientos externos utilizando el patrón RAG y el uso de Zero-shot-CoT, aplicando estas metodologías a tareas de respuesta a preguntas en distintos dominios. Mediante el uso del conjunto de datos TruthfulQA, se generaron múltiples respuestas a un mismo cuestionamiento, agrupando oraciones semánticamente equivalentes para cuantificar la consistencia.
El análisis comparativo en 37 categorías muestra que el enfoque RAG, que incorpora conocimientos externos, mejoró notablemente la congruencia semántica, superando al método Zero-shots-CoT, que potencia el rendimiento interno del LLM. De dicho análisis, se concluyó que, al ofrecer contexto adicional, las respuestas de los modelos tendieron a ser más coherentes y confiables.
A pesar de este éxito, se destaca la necesidad de estudiar cómo las características intrínsecas de las preguntas o su estructura gramatical podrían influir en la consistencia de las respuestas. Los autores sugieren que futuras investigaciones se centren en las categorías donde la consistencia disminuyó, buscando adaptar las técnicas a estos contextos específicos.
Este estudio aporta un importante avance en la búsqueda de respuestas más confiables en modelos de lenguaje, estableciendo una base sólida para implementar mejoras en la alineación de sus respuestas con el conocimiento real.