Nuevos límites de amenazas: Vulnerabilidades en Sistemas Multi-Agente con Modelos de Lenguaje

En el mundo de la inteligencia artificial, un nuevo tipo de ciberataque ha salido a la luz, amenazando la integridad de los sistemas multi-agente basados en Modelos de Lenguaje de Grandes Dimensiones (LLMs, por sus siglas en inglés). Esta vulnerabilidad, denominada “Infección por Comentario” (Prompt Infection), ha demostrado la capacidad de desatarse en redes interconectadas de agentes virtuales, con métodos de propagación similares a los de un virus informático. La amenaza radica en prompts maliciosos capaces de replicarse y esquivar las defensas habituales, llevando a invasiones de datos, manipulación de información, y otros riesgos de seguridad.

El estudio, liderado por investigadores de University College London y Stanford, destaca la creciente presencia de sistemas multi-agente y las oportunidades que estas tecnologías brindan para mejorar la flexibilidad y potencia de los LLMs en simulaciones sociales y aplicaciones colaborativas. Sin embargo, estas redes de colaboración también abren puertas a debilidades de seguridad, tal es el caso de ataques de inyección de prompt, hasta ahora subestimados en estos entornos.

Los experimentos llevados a cabo demostraron que los sistemas multi-agente son vulnerables a estos ataques, incluso en escenarios donde los agentes no comparten públicamente todas sus comunicaciones. Un simple prompt inserto en un documento externo como un correo o archivo PDF puede desencadenar una serie de acciones no deseadas, comprometiendo la operación y la seguridad de todo el sistema. Por ejemplo, en ataques de robo de datos, los agentes comprometidos se coordinan para exfiltrar información confidencial hacia puntos externos.

La investigación también exploró mecanismos de defensa, introduciendo “Etiquetado LLM”, que intenta marcar de manera clara las respuestas generadas por agentes, mitigando así la propagación de infecciones. A pesar de esto, se concluyó que ninguna defensa probada, ya sea individual o combinada, es completamente eficaz para prevenir la propagación de estos prompts dentro de un sistema multi-agente. Por tanto, queda claro que estas arquitecturas distribuidas no son inherentemente más seguras.

El estudio subraya la importancia urgente de desarrollar medidas de seguridad robustas y efectivas para salvaguardar la implementación de estas tecnologías avanzadas, asegurando que los potenciales riesgos y exploite tan letales puedan ser controlados de manera eficiente.

Solo noticias

y ya

Nuevos límites de amenazas: Vulnerabilidades en Sistemas Multi-Agente con Modelos de Lenguaje