Evaluación de "Desaprendizaje" en Modelos de Lenguaje: Desafíos y Avances

En el vertiginoso mundo de los modelos de lenguaje de gran escala (LLMs), los investigadores han puesto el ojo sobre un detalle crucial: el potencial riesgoso que estos modelos representan, por ejemplo, al facilitar ciberataques o la creación de armas biológicas. Tanto es así que se ha buscado adoptar “métodos de desaprendizaje” para eliminar este conocimiento peligroso de sus pesos de modelo.

Deib y Roger de la Universidad de Harvard han propuesto un novedoso método de evaluación adversarial que examina si realmente se elimina, y no solo oculta, información en los LLMs. En su investigación, los autores lograron recuperar hasta un 88% de la precisión pre-desaprendizaje utilizando técnicas de ajuste fino sobre hechos accesibles. Esta alarmante tasa sugiere que los métodos actuales de desaprendizaje enfrentan serias limitaciones para borrar efectivamente información de los modelos de lenguaje.

Precedentes ya apuntaban a los LLMs como actores potenciales de amenazas, capaces de realizar actividades nocivas. En respuesta, se han implementado métodos como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), que, aunque reduce ciertos riesgos, no es completamente infalible frente a técnicas de “jailbreak” u otros ataques similares.

Para contrarrestar estas vulnerabilidades, los investigadores han considerado métodos como la Ascensión de Gradiente y la técnica de Misdirection Representacional de Desaprendizaje (RMU). No obstante, estos también dejaron huellas que pudieron ser explotadas mediante simples variaciones en el formato de las preguntas.

Los resultados de sus experimentaciones constatan que, a pesar de aplicar métodos avanzados como el RMU, la información peligrosa puede ser recuperada en gran parte, exponiendo la insuficiencia de estas técnicas.

En conclusión, alcanzar un acervo confiable de métodos de desaprendizaje que realmente eliminen conocimientos riesgosos sigue siendo un desafío mayor. Se sugiere seguir desarrollando métodos que brinden garantías robustas de seguridad, fundamentándose en evaluaciones rigurosas que guíen esta progresión.

Solo noticias

y ya

Evaluación de "Desaprendizaje" en Modelos de Lenguaje: Desafíos y Avances