Investigadores de la Universidad de Soochow han desarrollado el marco CMD (Model self-Detoxification consciente del contexto) para mejorar la calidad de generación de texto de los modelos de lenguaje sin comprometer su efectividad en la detoxificación de contenido tóxico. Este marco busca equilibrar la generación de contenido contextualizado y seguro, un desafío común en los modelos de lenguaje actuales, particularmente cuando se enfrentan a contextos potencialmente tóxicos.
El enfoque CMD involucra dos fases: una fase de síntesis de datos y una fase de entrenamiento del modelo. En la fase de síntesis, los modelos de lenguaje se utilizan para crear datos que representan el proceso de detoxificación del contexto mientras se conserva el significado original. Además, se guía a los modelos para que generen contenido seguro a partir del contexto detoxificado. Esta fase incluye la detección de segmentos tóxicos que se reemplazan por texto sinónimos seguros, y luego se genera una cadena de razonamiento donde se proporciona el contexto detoxificado para futuras generaciones. Por ejemplo, los segmentos “tóxicos” identificados con la ayuda de la API de Perspective se sustituyen por marcadores, y un algoritmo iterativo asegura la coherencia del texto generado con el contexto original detoxificado.
En la fase de entrenamiento del modelo, el foco está en permitir que los modelos de lenguaje entrenen sin necesidad de módulos externos, utilizando los datos sintetizados para mejorar su capacidad de autodesintoxicación. Se implementó una pérdida contrastiva tóxica durante el entrenamiento para guiar la creación de contenido lejos de ejemplos negativos tóxicos. Experimentos realizados con varios modelos de lenguaje de gran tamaño, como GPT-2 XL y LLaMA2, han confirmado la eficacia del marco CMD, demostrando una mejora consistente en la reducción de la toxicidad del texto generado al tiempo que se preserva la calidad de la generación en comparación con modelos base y otros métodos de desintoxicación existentes.
En conclusión, CMD representa un enfoque innovador que mitiga el desequilibrio entre la desintoxicación efectiva y la calidad del texto generado al abordar las limitaciones de los métodos actuales, ofreciendo un esquema que presta atención al contexto y la generación segura.