Investigadores han desarrollado una nueva metodología para atacar de manera eficiente los Grandes Modelos de Lenguaje (LLMs) alineados, un área crítica de estudio en protección y seguridad de inteligencia artificial. Los LLMs han demostrado habilidades impresionantes en múltiples tareas pero siguen siendo vulnerables a los llamados ‘ataques de jailbreak’. Estos ataques permiten a los adversarios manipular los LLMs para generar respuestas no deseadas o potencialmente dañinas.
El innovador método se llama Faster-GCG, una evolución del ataque original GCG desarrollado por investigadores en 2023. El ataque GCG utiliza un algoritmo de optimización que depende en gran medida de suposiciones poco realistas, lo que incrementa los costos computacionales y reduce su efectividad. Faster-GCG busca optimizar este proceso y logra mejores tasas de éxito de ataque con una décima parte del costo computacional original, lo que significa un gran avance en la comprensión y mitigación de la vulnerabilidad de los LLMs.
Las pruebas realizadas sobre diversos modelos de lenguaje abiertos como Llama-2-7B-chat y Vicuna-13B muestran que Faster-GCG no solo supera al GCG original sino que también mejora su capacidad de transferencia al atacar modelos de lenguaje cerrados como ChatGPT. Esta capacidad de transferencia es crucial ya que permite evaluar el impacto potencial de vulnerabilidades desde una amplia perspectiva.
La estrategia de Faster-GCG se basa en varias mejoras clave. Incluye nuevos términos de regularización que mejoran la selección de candidatos a través de aproximaciones más precisas, además de introducir una técnica de muestreo codicioso que elimina la aleatoriedad en la selección de tokens, acelerando la convergencia del proceso de optimización. También incorpora medidas para evitar el problema del bucle automático que afectaba al GCG.
Los resultados de los experimentos sugieren que Faster-GCG podría convertirse en una herramienta eficaz para identificar y corregir las vulnerabilidades de los LLMs con un enfoque centrado en la optimización computacional y la protección ante el uso indebido, subrayando la importancia de seguir avanzando en este campo constantemente cambiante de la seguridad en inteligencia artificial.
En conclusión, la aparición de Faster-GCG promete mejorar tanto nuestra comprensión como nuestras capacidades para reforzar la seguridad de los LLMs frente a ataques adversarios, una medida esencial para garantizar que los sistemas de inteligencia artificial sean seguros y confiables en el futuro cercano.