El análisis y la detección de textos generados por modelos de lenguaje superdotado (LLMs) es un campo en auge, dado el incremento en la accesibilidad de estas tecnologías y su utilización en diversas áreas como la escritura científica y los foros en línea. Las investigaciones recientes revelan que los textos generados por diferentes LLMs presentan distintos niveles de dificultad en su detección, siendo los relacionados con la escritura científica los más complejos de identificar.
La investigación utiliza dos conjuntos de datos, con textos de IA generados a partir de 27 modelos distintos, divididos en tres dominios de escritura: opiniones, textos científicos y generación de historias. La clasificación de estas creaciones como humanas o de IA ha mostrado variaciones significativas en cada dominio, destacándose la escritura científica por su complicación añadida.
En la evaluación de ensayos estudiantiles, se descubrieron diferencias notables entre modelos. Los textos generados por la familia de modelos de OpenAI han permitido a sus correspondientes clasificadores un desempeño considerablemente bueno, presentándose como más difíciles de detectar en comparación con otros modelos.
Los ensayos estudiantiles generados por estos modelos mostraron niveles elevados de entropía y similitudes con textos humanos, en comparación con otros LLMs, lo cual podría explicar la resistencia a ser detectados. Sin embargo, no todos los LLM comparten esta dificultad, algunos modelos como Llama y GLM lograron un rendimiento robusto cuando fueron desarrollados específicamente para identificar textos generados por sus propios ambientes.
Se observó también que los modelos de OpenAI exhiben una complejidad similar a los textos humanos, lo que contribuye a que sean más difíciles de distinguir. De igual manera, la investigación revela que la detección en estructuras cortas como publicaciones en medios sociales o comentarios puede ser más desafiante debido a la brevedad y la informalidad de estos escritos.
En conclusión, es evidente que los modelos de lenguaje presentan diferentes niveles de complejidad en cuanto a generación de textos y su detección posterior, siendo algunos más avanzados a la hora de imitar escritos humanos. Esto resalta la necesidad de desarrollar métodos de detección más robustos y adaptables que consideren las variaciones entre diferentes dominios de escritura y modelos LLM.