Innovador Enfoque para Detectar Secretos en Modelos de Lenguaje de Código

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) se han consolidado como herramientas valiosas en la codificación, revolucionando el modo en que los desarrolladores manejan código al ofrecer autocompletado, generación de código y corrección de errores. Sin embargo, su capacidad para memorizar información durante el entrenamiento plantea serias preocupaciones de privacidad, ya que pueden retener y revelar secretos confidenciales a través de sus predicciones.

Un nuevo estudio realizado por investigadores de múltiples universidades ha identificado características clave para diferenciar secretos auténticos de los generados fraudulentamente por los LLMs de código. A lo largo de extensivos experimentos, han desarrollado un método innovador llamado D E S EC, que mejora las técnicas existentes enfocándose en el nivel de probabilidad de los tokens mediante la evaluación del contexto y el patrón de los tokens generados para dictaminar la autenticidad de un secreto.

Los LLMs memorizan secretos de datos de entrenamiento distribuidos, como API Keys de Google y otros credenciales, los cuales podrían ser revelados en las respuestas generadas. Anteriormente, métodos basados en ingeniería de prompts han tratado de extraer estos secretos pero enfrentan limitaciones significativas, especialmente en la extracción eficiente y frecuente falsa positividad causada por “alucinaciones” del modelo.

El método D E S EC emplea un modelo de puntuación que analiza características de nivel de token, como el índice de paso inicial, el promedio de probabilidad a través de varias iteraciones, las ventajas de probabilidad de ciertos tokens y el ratio de entropía, para guiar la decodificación de tokens en tiempo real. Este enfoque demostró un rendimiento superior frente a las técnicas tradicionales, alcanzando un mayor número de secretos auténticos extraídos de los modelos de código evaluados.

Durante la ejecución de sus experimentos, el equipo demostró el éxito del método al integrar un modelo de puntuación basado en análisis lineal discriminante. Aplicado sobre cinco destacados modelos de código —incluyendo StableCode, CodeGen2.5 y CodeLlama— el método D E S EC logró extraer satisfactoriamente un mayor número de secretos auténticos comparado con las técnicas previas.

Los resultados redundan en implicaciones significativas para la privacidad y la seguridad de los datos. Como conclusión, aunque el potencial de los LLMs es prometedor, es imperativo seguir investigando y perfeccionando técnicas que minimicen el riesgo de divulgación de datos sensibles. Este avance en el análisis de memorias de LLMs puede ofrecer un grado adicional de seguridad y confianza en el desarrollo y la implementación de estas herramientas de inteligencia artificial.

Solo noticias

y ya

Innovador Enfoque para Detectar Secretos en Modelos de Lenguaje de Código