Avances en ataques "jailbreak" para modelos de lenguaje

Investigadores impulsan la transferencia de ataques en modelos de lenguaje para desencadenar contenido dañino

Un equipo de científicos ha desarrollado un método novedoso para mejorar la efectividad y transferibilidad de los ataques de “jailbreak” en grandes modelos de lenguaje (LLM). Estos ataques buscan eludir medidas de seguridad incorporadas en los modelos para inducir respuestas potencialmente dañinas. Aunque se han introducido métodos previos como el GCG (Greedy Coordinate Gradient) que tienen éxito en modelos individuales, su capacidad de transferencia entre diferentes modelos ha sido limitada hasta el momento.

Para remediar esta falta de transferibilidad, los investigadores han implementado un proceso de optimización más extenso que incluye una plantilla de inducción de escenarios, la selección optimizada de sufijos, y un mecanismo de re-sufijo que maximiza la eficacia de los ataques. La introducción de una pregunta complemento maliciosa permite que el modelo genere respuestas perjudiciales con gran eficacia.

El estudio destaca que el nuevo enfoque no solo logra una tasa de éxito cercana al 100% en la ejecución de ataques, sino que también garantiza que dichas técnicas sean aplicables y efectivas en un rango más amplio de modelos LLM. Según los resultados presentados, el método SI-GCG sobresale en comparación con otras técnicas modernas de “jailbreak”, especialmente por su capacidad de generar plantillas dañinas que, junto con preguntas maliciosas, inducen al modelo a generar contenido nocivo con una alta tasa de engaño.

En experimentaciones realizadas con modelos como LLAMA2-7B-CHAT y VICUNA-7B-1.5, el método demostró su habilidad para optimizar tanto el reconocimiento de sufijos potencialmente útiles como el ajuste más fino de las respuestas generadas, fortaleciendo así el ataque sin violar las normas de seguridad presentes en el modelo base.

Al integrarse con técnicas previas optimizadas, el método no solo amplía la eficacia de los ataques, sino que también mejora la capacidad de las estrategias anteriores al aumentar su índice de suficiencia transferible. Esto lo convierte en una técnica avanzada de ataque, aplicable para estudiar y aumentar las salvaguardas en sistemas de inteligencia artificial.

La gran novedad de este enfoque radica en su capacidad de adaptarse a múltiples mejoras a través de un mecanismo iterativo que mejora el resultado generado en cada paso, lo que garantiza el éxito del ataque manteniendo una variabilidad ajustada de los valores manejados. En esencia, el SI-GCG ofrece una innovadora revisión en las estrategias de optimización basado en una actualización gloriosa de los métodos previos.

Los investigadores concluyen que con la evolución continua de la inteligencia artificial, métodos como el SI-GCG son cruciales para ayudar a entender y fortalecer la seguridad de esta tecnología, permitiendo que futuras investigaciones fortalezcan las barreras de seguridad de los modelos LLM frente a ataques sofisticados.

Solo noticias

y ya

Avances en ataques "jailbreak" para modelos de lenguaje