En un experimento llevado a cabo por el Laboratorio de Inteligencia Artificial y Sistemas de Aprendizaje de la Universidad Técnica Nacional de Atenas, se ha explorado el uso de datos sintéticos de historias en el pre-entrenamiento lingüístico de modelos de inteligencia artificial. Utilizando la base de datos TinyStories, un conjunto de relatos breves generados por GPT-3.5-4, se entrenaron modelos GPT-Neo para evaluar su capacidad de generar continuaciones originales a partir de historias truncadas.
Los investigadores encontraron que incluso con un acceso limitado a menos de 100 millones de palabras, los modelos podían generar piezas de alta calidad con sustancial conocimiento lingüístico. El estudio se centra en cómo esta aproximación con datos sintéticos podría mejorar la formación de modelos de lenguaje en entornos de recursos limitados, relevando potenciales beneficios y limitaciones.
El BabyLM Challenge, un evento anual, motiva a los participantes a explorar entrenamientos eficientes de modelos de lenguaje con datos limitados inspirados en el desarrollo cognitivo humano. Este año, los competidores tuvieron la opción de crear sus propios corpus de entrenamiento, lo que introdujo nuevas dinámicas al desafío.
Uno de los hallazgos clave fue que la introducción de historias generadas sintéticamente en la combinación de datos de entrenamiento resultó en mejoras modestas, aunque en general tuvo una influencia negativa en la comprensión lingüística cuando se usó en exceso. En contraste, modelos que combinan datos de TinyStories y el conjunto de datos de BabyLM mostraron más potencial, sugiriendo que una mezcla equilibrada de entrenamientos podría ser clave para optimizar resultados.
Finalmente, las evaluaciones se realizaron utilizando métricas de comprensión gramatical, diversidad, y calidad de generación, mostrando que incluso con una restricción de datos estricta, los modelos son capaces de demostrar habilidades gramaticales avanzadas y de generar historias completas que respetan la coherencia de narrativa básica. Sin embargo, la capacidad para aprovechar plenamente los datos sintéticos en un entrenamiento previo continúa siendo un desafío.