La transformación de modelos Transformer se ha optimizado mediante el aumento de parámetros, mejorando su rendimiento en tareas posteriores. Sin embargo, optimizar todos estos modelos genera exigencias de memoria intensivas, lo que representa un desafío en términos de ajuste fino eficiente. Las técnicas tradicionales se concentran en bloques de atención, abordando mínimamente los bloques MLP a pesar de que representan un significativo porcentaje de parámetros del modelo.
Frente a este reto, surge SparseGrad, un innovador método PEFT selectivo que se plantea como solución. SparseGrad promueve una optimización concentrándose exclusivamente en 1% de los parámetros más significativos de los bloques MLP. Este enfoque permite reducir substancialmente la cantidad de parámetros a actualizar durante el ajuste fino, minimizando así la carga de memoria sin sacrificar el rendimiento del modelo.
SparseGrad se validó utilizando modelos populares como BERT y RoBERTa en el benchmark GLUE, superando a otros métodos como LoRA y MeProp en pruebas de comprensión de lenguaje natural (NLU). Dicho éxito refleja la capacidad del enfoque de SparseGrad para mantener un rendimiento superior disminuyendo al máximo el consumo de recursos.
La metodología de SparseGrad implica la transformación de gradientes en una estructura esparcida para reducir el número total de parámetros necesarios para el ajuste fino. El uso del algoritmo Higher Order SVD, junto con el optimizador SparseAdam, permite mantener actualizados solo los parámetros esenciales en un espacio de baja densidad de información.
En el contexto de preguntas y respuestas, LLaMa-2 también se benefició significativamente de SparseGrad. En experimentos realizados en entornos reales con el conjunto de datos OpenAssistant, el enfoque superó consistentemente a métodos anteriores, demostrando su eficacia no sólo en tareas de NLU sino también en aplicaciones de interacción conversacional.
Con este avance, SparseGrad se posiciona como una prometedora metodología para el entrenamiento eficiente de modelos de lenguaje, al permitir a los desarrolladores alcanzar un equilibrio entre rendimiento de modelo y recursos computacionales. Además, las mejoras en velocidad de entrenamiento y reducción de uso de memoria hacen de SparseGrad una opción atractiva para futuros desarrollos en inteligencia artificial.