Nuevo Enfoque Conjunto Optimiza Modelos de Lenguaje Sin Aumento de Costos

Recientes hallazgos en el estudio de modelos de lenguaje de gran escala (LLMs) han revelado la problemática del olvido en los procesos tradicionales de post-entrenamiento. Esta fase se compone generalmente de dos etapas: el ajuste fino supervisado (SFT) y el aprendizaje de preferencias, típicamente mediante métodos como el Aprendizaje de Refuerzo con Retroalimentación Humana (RLHF) o la Optimización de Preferencias Directas (DPO). El enfoque secuencial común, en el que primero se lleva a cabo SFT seguido por RLHF/DPO, resulta ser subóptimo ya que el modelo tiende a olvidar los aprendizajes del SFT al enfrentarse al segundo ciclo de formación de RLHF o DPO.

Investigadores de IBM Research y del Rensselaer Polytechnic Institute han propuesto una alternativa: un marco de entrenamiento conjunto que garantiza la convergencia teóricamente y supera empíricamente el desempeño del enfoque secuencial, además de mantener costos computacionales similares. Este nuevo enfoque está diseñado para optimizar simultáneamente los objetivos de SFT y RLHF/DPO, evitando así las pérdidas de información y el consecuente declive en el desempeño del modelo.

Con este nuevo enfoque, conocido como ALRIGHT y MAXRIGHT, los investigadores demuestran que su algoritmo no solo mantiene las fortalezas de las dos metodologías entrenadas individualmente, sino que además mitiga los efectos de olvido gracias a su estructura optimizada. En pruebas empíricas usando modelos abiertos como LLAMA-3 y desarrollos internos, las nuevas metodologías registraron un aumento de rendimiento hasta del 31% en comparación con el esquema tradicional secuencial.

El enfoque de alternar entre la optimización de SFT y RLHF permite a ALRIGHT mantener un balance adecuado entre ambos objetivos, adaptándose en tiempo real a las necesidades de cada modelo. Por su parte, MAXRIGHT optimiza de manera adaptativa seleccionando el objetivo peor evaluado por el modelo actual, garantizando así un equilibrio continuo durante el aprendizaje.

En conclusión, estos hallazgos abren la posibilidad de aplicaciones más eficaces y seguras de modelos de lenguaje, destacando una dirección prometedora para futuros desarrollos en la inteligencia artificial, garantizando a la vez desempeño superior sin costos adicionales significativos. La efectividad probada de ALRIGHT y MAXRIGHT posiciona estos métodos como una alternativa viable y práctica para superar las limitaciones actuales del aprendizaje secuencial en modelos de IA.

Solo noticias

y ya

Nuevo Enfoque Conjunto Optimiza Modelos de Lenguaje Sin Aumento de Costos