La capacidad de los modelos generativos de IA para crear textos casi indistinguibles de los escritos por humanos ha planteado nuevos desafíos en la detección de dichos contenidos. Investigadores de diversas instituciones científicas han centrado sus esfuerzos en crear detectores de texto generados por IA que sean robustos y capaces de adaptarse a nuevos generadores y dominios semánticos no conocidos previamente. Este enfoque es esencial para mejorar la detección de contenido generado artificialmente, especialmente cuando estos textos pueden usarse con fines maliciosos.
El uso de clasificadores supervisados que ignoren características espurias ha mostrado una calidad casi perfecta en la detección dentro de un mismo dominio. Sin embargo, fallan al intentar generalizar a otros tópicos o estilos de escritura no vistos. Para abordar este problema, se han investigado estrategias de descomposición de subespacios y selección de características. Los enfoques mejor evaluados incrementaron la capacidad de clasificación fuera de distribución (OOD) de 9% a 14% en configuraciones específicas para incrustaciones de RoBERTa y BERT.
La eliminación de subespacios lineales perjudiciales mediante técnicas recientes de borrado de conceptos ha demostrado ser efectiva para mejorar la robustez del detector frente al cambio de dominio y modelo. Este enfoque ha permitido la identificación de características residuales que, consideradas ruido, eran responsables de las diferencias espurias específicas de los conjuntos de datos.
Una de las principales conclusiones de este estudio es la confirmación de que los modelos de lenguaje grande (LLM) como BERT y RoBERTa operan en espacios de características distribuidas que pueden provocar desafíos para la detección fuera de distribución. No obstante, reteniendo únicamente las dimensiones importantes del espacio de datos trascendental alto, se puede beneficiar a las tareas de detección de texto generado artificialmente.
En resumen, se logró demostrar que la combinación de técnicas de descomposición de subespacios lineales, selección de características, y el entrenamiento supervisado en pequeños dominios o modelos generadores, mejora significativamente la efectividad de los clasificadores para tareas de detección de contenido generado por IA en entornos complejos.