DRDO: Un Método Revolucionario en el Entrenamiento de Modelos de Lenguaje
El desarrollo de modelos de lenguaje a gran escala se encuentra en una encrucijada, donde la capacidad de modelar preferencias humanas de manera robusta surge como un imperativo ineludible. DRDO (Destilación Directa de Recompensas y Optimización de Políticas) se presenta como una innovadora solución para abordar las limitaciones de los métodos de alineación de preferencia directa tradicionales, como el DPO (Optimización Directa de Preferencias). La esencia de DRDO es su capacidad para destilar las recompensas de un “oráculo” en el modelo de políticas, aprendiendo simultáneamente señales variadas de preferencia durante la alineación, lo que mitiga problemas como la degeneración de políticas.
A través de experimentos realizados en los conjuntos de datos Ultrafeedback y TL;DR, DRDO ha demostrado superar métodos anteriores como el DPO y el e-DPO en términos de recompensas esperadas y ofrece una robustez superior frente a señales de preferencia ruidosas y ambientes fuera de distribución. Estos resultados reafirman la capacidad de DRDO para mejorar la calidad de las políticas de los modelos de lenguaje, asegurando que las salidas de los modelos sean coherentes y contextualmente apropiadas.
A pesar de que los métodos de alineación de preferencias directa como el DPO asumen implícitamente que los datos de preferencias humanas derivan un resultado ganador claro, en la práctica, los modelos actuales enfrentan datos donde las preferencias anotadas pueden carecer de confianza o ser débiles. Aquí, DRDO logra una notable ventaja, facilitando que las políticas distingan con mayor precisión entre respuestas preferidas y no preferidas, a pesar de las bajas diferencias de recompensa o señales dudosas.
La consistencia en el logro de recompensas altas en una variedad de modelos y tamaños reafirma la superioridad de DRDO en garantizar modelos de lenguaje que no solo cumplen con expectativas consistentes de recompensa, sino que también se adaptan mejor a variaciones no determinísticas en las preferencias humanas, un desafío persistente en la creación de modelos de lenguaje generativos.