El proyecto OpenGPT-X ha sido desarrollado para crear modelos lingüísticos de gran relevancia en varios idiomas europeos. Este proyecto, liderado por el Fraunhofer Institute, busca superar las limitaciones de los modelos existentes, principalmente enfocados en el inglés estadounidense. En colaboración con DFKI, se ha diseñado una exhaustiva línea de procesamiento de datos para lograr un modelo abierto y de alto rendimiento.
Los primeros pasos en el proceso se centraron en la selección y definición de requisitos para la creación de conjuntos de datos finales destinados al entrenamiento de los modelos. Los datos han sido divididos en aquellas que son curadas y web, cada una tratada mediante tuberías específicas: mientras las curadas sólo requerían filtros mínimos, las de la web demandaban un filtrado y desduplicación extensos.
Para asegurar la transparencia y alineación con las regulaciones de la Unión Europea, como el Reglamento General de Protección de Datos (GDPR), se realizó un análisis exhaustivo de los conjuntos de datos. También se compartieron las claves y desafíos a los que se enfrentaron durante el proyecto, proporcionando recomendaciones para futuras metas en la preparación de datos multilingües a gran escala.
Históricamente, los modelos destacados actualizados en empresas tecnológicas globales presentan gran limitación en términos de diversidad lingüística. Por esta razón, OpenGPT-X no solo persigue la creación de un sistema de entrenamiento más abierto y plural, sino también su aplicabilidad en sectores reales dentro de la Unión Europea, tales como medios y la industria automotriz.
Uno de los grandes obstáculos del proyecto ha sido abordar y procesar enormes volúmenes de datos, obligando al equipo a usar constantes algoritmos de deduplicación, como MinHash/LSH, y divisiones a nivel de idioma y de volcado. Es esencial tener la capacidad de utilizar recursos computacionales de gran envergadura, distribuyendo las tareas, asegurando la eficiencia y dando lugar a una tecnología transformadora a nivel global.
Elegir una variada gama de conjuntos de datos y aplicarlos consistentemente a través de toda la diversidad lingüística y cultural europea es fundamental para el alcance del proyecto. Esta variabilidad asegura que los modelos respondan adecuadamente a cualquier contexto, mitigando sesgos culturales que anteriormente veíamos en modelos dotados de recursos únicamente en inglés.
Con los desafíos superados, OpenGPT-X se perfila como un proyecto prometedor que no solo revitaliza el panorama del aprendizaje automático, sino que establece precedentes para una mayor colaboración internacional en la creación de bases de datos lingüísticas ricas y menos sesgadas.