SeND: Innovador protocolo para reducir alucinaciones en modelos de lenguaje

En medio del auge del uso de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés), surgen preocupaciones sobre su fiabilidad debido a las llamadas alucinaciones, que son salidas inexactas o irrelevantes frente al input del usuario. Investigadores han explorado la relación entre el proceso de entrenamiento y la aparición de estas alucinaciones buscando superar enfoques previos que se concentraban únicamente en la detección y mitigación posteriores a los hechos. Utilizando modelos de la suite Pythia (con un rango de 70 millones a 12 mil millones de parámetros) y varias métricas de detección de alucinaciones, los investigadores analizaron tendencias a lo largo del entrenamiento, descubriendo patrones erráticos en el comportamiento de las alucinaciones que enfatizan la incertidumbre de los modelos.

Se presentó un enfoque novedoso denominado Sensitive Neuron Dropout (SeND), una metodología de entrenamiento diseñada para mitigar las alucinaciones al reducir la variabilidad durante el proceso de aprendizaje. Este método funciona dejando de lado neuronas sensibles, es decir, aquellas que muestran variaciones significativas en los datos de entrenamiento. Además, se desarrolló una métrica de detección de alucinaciones no supervisada, Efficient EigenScore (EES), que duplica la velocidad de cálculo respecto al EigenScore tradicional. Esta métrica eficiente se integró en el protocolo SeND, permitiendo que sea tanto escalable computacionalmente como efectivo para reducir alucinaciones.

El análisis empírico demostró que el protocolo SeND mejora la confiabilidad de los modelos a la prueba en hasta un 40% en comparación con entrenamientos normales, y también proporciona un método eficiente para mejorar la precisión factual al adaptar los LLM a dominios como Wikipedia y conjuntos de datos médicos. El protocolo SeND es importante para aumentar la confianza en los modelos LLM, particularmente cuando se implementan en industrias de alto riesgo.

Los resultados sugieren que un enfoque que integra técnicas de mitigación de alucinaciones durante el proceso de entrenamiento puede ofrecer superioridades significativas respecto a las estrategias tradicionales. De esta manera, los modelos no solo concluyen con la convergencia de pérdida, sino también con una confianza factual más estable. SeND no solo mejora el aprendizaje exacto de hechos al limitar la variabilidad en neuronas contextuales, sino que también favorece la terminación del entrenamiento en modelos que, aparte de alcanzar una convergencia de pérdida, exhiben una confianza factual estable.

Como conclusión, el desarrollo de SeND y su integración con un método eficaz como EES representan un avance significativo hacia el entrenamiento de modelos de lenguaje de mayor confiabilidad, lo cual es crucial para mejorar la seguridad al aplicarlos en diferentes industrias. Al continuar esta línea de trabajo, se anticipa que SeND podría incluso generar mayores beneficios en modelos más grandes debido a que el alto nivel de variabilidad inherente podría amplificar el efecto de regularización y conducir a mejoras más notables en la precisión factual.

Solo noticias

y ya

SeND: Innovador protocolo para reducir alucinaciones en modelos de lenguaje