Desvelan riesgos en la optimización de preferencias para modelos de lenguaje

Un equipo de investigadores de la Universidad de Princeton ha descubierto un fenómeno inesperado en el campo del aprendizaje de preferencias directas con los modelos de lenguaje. Este fenómeno, denominado desplazamiento de probabilidad, no solo contrarresta el propósito original de estas técnicas de alineación de preferencias, sino que además podría resultar en alineamientos no intencionados de los modelos respecto a los propósitos de seguridad y utilidad.

El desplazamiento de probabilidad ocurre cuando, durante el proceso de entrenamiento, se incrementa la probabilidad de respuestas indeseadas a expensas de las respuestas preferidas. Por ejemplo, si se entrena a un modelo para preferir la respuesta “No” en lugar de “Nunca”, podría darse el caso de que la probabilidad de la respuesta “Sí” aumente considerablemente, lo cual es contraproducente. Este hallazgo ha sido probado incluso en configuraciones simples con un solo párrafo, revelando la ubiquidad del fenómeno.

Los investigadores han teorizado que el desplazamiento de probabilidad se produce debido a la similitud en los embebimientos de las respuestas preferidas y no preferidas. Utilizando una medida denominada puntuación de similitud de embebimiento centrada (CHES), el equipo logró identificar cuáles muestras de entrenamiento son más propensas a contribuir al desplazamiento de probabilidades.

Empíricamente, se descubrió que eliminando muestras con altas puntuaciones CHES se puede mitigar el efecto del desplazamiento, permitiendo entrenar modelos que respondan de manera más alineada con las expectativas de seguridad, como rechazar solicitudes peligrosas. Sin embargo, aunque existe la posibilidad de mitigar estos efectos adversos, el estudio recalca la importancia vital de seleccionar adecuadamente las preferencias de entrenamiento para evitar resultados desalineados e indeseados.

Este trabajo pone de relieve, no solo los riesgos potenciales en la implementación masiva de estos sistemas, sino también la importancia de entender y prevenir las fallas en el alineamiento de modelos, recordándonos la necesidad de un enfoque de curation robusto para asegurar resultados fiables y seguros.

En conclusión, el fenómeno de desplazamiento de probabilidad en el aprendizaje de preferencias directas de modelos de lenguaje plantea un desafío importante, manifestando la necesidad urgente de estrategias de filtrado y selección de datos más inteligentes que aprovechen medidas como la CHES para evitar efectos no deseados.

Solo noticias

y ya

Desvelan riesgos en la optimización de preferencias para modelos de lenguaje