En los últimos años, se ha observado un creciente interés en mejorar la capacidad crítica de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), la cual consiste en identificar y refinar fallas en las respuestas generadas por estos modelos. A pesar de que algunos de los modelos más avanzados, como GPT-4, pueden generar críticas supervisadas, estas a menudo presentan fallas debido a la complejidad inherente del proceso de crítica.
Para abordar estos retos, un equipo de investigadores ha desarrollado una nueva metodología llamada MultiCritique, que utiliza un enfoque de retroalimentación multi-agente para perfeccionar tanto la etapa de ajuste fino supervisado (SFT) como la de aprendizaje reforzado (RL). Este sistema recoge críticas generadas por múltiples agentes en lugar de depender de un único modelo, lo cual tiende a reducir las inexactitudes.
La eficacia de esta nueva aproximación se ha puesto a prueba mediante experimentos exhaustivos que demuestran que el dataset generado por MultiCritique supera en calidad a otros datasets de crítica existentes. De este modo, los modelos afinados mediante el sistema MultiCritique no solo superan a otros modelos de entre 7 a 13 mil millones de parámetros en términos de crítica, sino que también se acercan al rendimiento de modelos avanzados como GPT-4.
El equipo ha logrado notables mejoras en las capacidades críticas mediante el uso de datos de preferencia basados en retroalimentación de múltiples agentes. Este enfoque consiste en emparejar críticas preferidas con críticas rechazadas, asegurando que la elección de las críticas conlleve revisiones superiores en calidad.
A modo de conclusión, este avance no solo optimiza el rendimiento de los modelos de lenguaje en la tarea de crítica, sino que también simplifica la generación de críticas precisas y útiles para su evaluación y auto-mejoría automática.