Avances en Jailbreaking para Modelos de Lenguaje: Optimización del Control de Atención

Investigadores de las universidades de UC Santa Cruz, Johns Hopkins, University of Edinburgh y Peking University han desarrollado un nuevo enfoque para mejorar los ataques de “jailbreaking” en modelos de lenguaje de gran tamaño (LLMs) mediante la manipulación de atención. Este método, denominado AttnGCG, aumenta la efectividad de los ataques al centrar más la atención de los modelos en un sufijo adversarial, logrando saltarse las barreras de seguridad establecidas por los protocolos de seguridad de los modelos.

A pesar de las extensivas medidas de entrenamiento para asegurar que los LLMs no produzcan contenido inapropiado, estos modelos aún enfrentan riesgos significativos debido a ataques adversariales. Tradicionalmente, los ataques han explotado errores de seguridad inherentes en los modelos, utilizando métodos de optimización que buscan maximizar la probabilidad de generación de contenido malicioso.

El AttnGCG basa su éxito en ajustarse a cómo los modelos de lenguaje leen y priorizan ciertas partes de una entrada. Mediante la manipulación deliberada de los puntajes de atención sobre un sufijo adversarial, el modelo puede, por ejemplo, pasar por alto un ‘prompt’ del sistema diseñado para asegurar la generación de contenido seguro. Empíricamente, este nuevo enfoque ha mejorado su tasa de éxito en la serie de modelos Llama-2 en un 7% y en la serie Gemma en un 10%.

Este método es particularmente eficaz dado que también permite la transferencia robusta de ataques, esto significa que los sufijos adversariales creados pueden impactar LLMs como GPT-3.5 y GPT-4, que antes no habían visto, con una mejora en la tasa de éxito del 11.4% al 91.7%. Los investigadores han facilitado que este enfoque sea accesible al publicar su código en un repositorio de GitHub, permitiendo a otros en la comunidad académica y de seguridad estudiar y contrarrestar estos vulnerabilidades.

La capacidad de AttnGCG para elevar la atención a segmentos ofensivos en el lenguaje es notoria a partir de visualizaciones más interpretables del mapa de atención de los modelos, lo que permite una mejor comprensión de cómo los ataques pueden ser más efectivos al manipular las configuraciones internas del modelo.

Aunque tiene el potencial de ser utilizado para mejorar la seguridad de los modelos al exponer vulnerabilidades, este tipo de desarrollo también advierte sobre la necesidad urgente de fortalecer aún más las defensas en los LLMs. A medida que estos modelos de inteligencia artificial continúan avanzada, el reforzamiento de sus protocolos de seguridad será esencial para bloquear rutas de manipulación tan efectivas como las presentadas por AttnGCG.

Solo noticias

y ya

Avances en Jailbreaking para Modelos de Lenguaje: Optimización del Control de Atención