Un equipo de investigadores de Gyan AI Research y el Departamento de Ciencias de la Computación y la Ingeniería del IIT Kanpur ha desarrollado una serie de modelos de lenguaje generativo denominados “Paramanu”, diseñados específicamente para idiomas indios. A pesar de ser hasta 20 o 64 veces más pequeños que los modelos estándar, estos modelos han demostrado un rendimiento superior en comparación con modelos de lenguaje más conocidos como J 6B y GPT Neo 1.3B. Estos modelos no requieren necesariamente el uso de GPU para la inferencia, lo que puede favorecer su uso en entornos con recursos limitados.
Paramanu es una colección de modelos monolingües, bilingües y multilingües entrenados desde cero en 10 idiomas indios diferentes, incluyendo el asamés, el bangla, el hindi, el konkani, el maithili, el maratí, el odia, el sánscrito, el tamil y el telugu, utilizando cinco scripts diferentes. Los modelos pueden manejar un tamaño de contexto significativamente mayor sin necesidad de equivalente memoria GPU, gracias a la técnica de escalado de incrustaciones RoPE desarrollada por el equipo de investigación.
En comparación con los modelos multilingües de lenguaje grande, Paramanu ofrece una ventaja destacada en tareas de comprensión de lenguaje natural y razonamiento. Para la tokenización, se ha desarrollado una novedosa herramienta, mBharat, que utiliza una combinación de BPE y Unigram, la cual es capaz de tokenizar incluso idiomas no documentados escritos en el mismo alfabeto e incluso en alfabeto romano.
Los modelos también han sido optimizados para tareas específicas mediante el uso de un conjunto de datos de ajuste de instrucciones de 23,000 instrucciones en sus respectivos lenguajes. En evaluaciones, estos modelos han destacado en dominios como la corrección gramatical, la planificación de itinerarios de viaje, y la composición poética, revelando un alto nivel de creatividad.
Estas innovaciones sirven para acercar la tecnología a comunidades lingüísticas no representadas en plataformas digitales, abordando la conocida “maldición de la multilingüidad” introduciendo un enfoque nuevo, efectivo y eficiente que facilita la accesibilidad de la tecnología de lenguaje generativo para hablantes de múltiples idiomas indios.