La revolución de los Modelos de Lenguaje Extenso (LLM, por sus siglas en inglés) ha supuesto un avance sin precedentes en la tecnología de la inteligencia artificial, transformando radicalmente la comprensión y generación del lenguaje natural. Estos modelos se han incorporado eficazmente en diversas aplicaciones, desde sistemas conversacionales hasta plataformas de generación de contenido, lo cual ha traído consigo tanto oportunidades inigualables como retos considerables relacionados con la seguridad. Sin embargo, a pesar de los avances tecnológicos, los LLM presentan susceptibilidades significativas frente a ataques como las inyecciones de indicaciones y el ‘jailbreaking’.
A medida que los LLM adquieren más poder y se integran en sistemas críticos, las posibilidades de mal uso y las consecuencias no intencionadas también aumentan. La capacidad de estos modelos para generar respuestas humanas a partir de extensos patrones de datos de entrenamiento es a la vez su mayor fortaleza y su mayor debilidad, ya que son vulnerables a la manipulación y explotación intencionadas.
Investigadores del ámbito de la inteligencia artificial han destacado la fragilidad en las técnicas actuales de alineamiento, mostrando que es posible manipular los LLM para que generen instrucciones indebidas o contenidoinadecuado. Esto incluye actividades ilegales como la síntesis de drogas o el blanqueo de dinero, en lo que se ha definido como un claro problema ético y de seguridad.
Diferentes tipos de ataques potenciales se han categorizado en estrategias basadas en indicaciones, basadas en modelo, multimodales y multilingües. Los ejemplos de técnicas incluyen el uso de símbolos e imágenes para intentar romper la alineación de seguridad de los modelos y fines de inducir indicaciones dañinas.
A pesar de los esfuerzos considerables en alinear estos modelos conforme a los valores humanos mediante técnicas como el ajuste fino supervisado (SFT) o el aprendizaje por refuerzo a partir de la retroalimentación humana, las amenazas evolucionan constantemente. Esto ha motivado una reevaluación de las estrategias de defensa, planteando innovaciones y mejorando los mecanismos de salvaguarda que pueden implicar entrenamiento adversarial, ajustes de parámetros internos o adoptar estrategias multi-agente para reforzar la resistencia frente a los ataques.
Se concluye que la naturaleza intrínsecamente vulnerable de los LLMs actualmente requiere un seguimiento minucioso y una investigación continua para desarrollar soluciones más adaptativas y seguras que mitiguen los riesgos asociados a la creciente implementación de estas potentes tecnologías en la sociedad.