CompAct: Innovación en Reducción de Memoria para Modelos de Lenguaje

Un avance significativo en el entrenamiento de modelos de lenguaje ha sido presentado por investigadores del Tecnion - Instituto de Tecnología de Israel, con su técnica CompAct. Esta innovación promete revolucionar la eficiencia en el uso de memoria al entrenar modelos de lenguaje grandes, lo que antes solo estaba al alcance de unos pocos con acceso a robustos recursos tecnológicos.

El problema de fondo que CompAct viene a solucionar es la enorme cantidad de memoria que se requiere para almacenar el gráfico computacional completo que se utiliza en los modelos de lenguaje, especialmente para la retropropagación. Con su nueva técnica, logran reducir esta necesidad hasta en un 50% durante la adaptación y en un 25-30% durante el preentrenamiento, sin incrementar las necesidades adicionales de memoria.

A través del almacenamiento de activaciones comprimidas de bajo rango durante el paso hacia adelante, CompAct optimiza las necesidades de memoria para la retropropagación, algo que previamente únicamente se había conseguido mediante la reducción del número de parámetros entrenables o la sobrecarga de los optimizadores.

Los investigadores compararon CompAct con otras técnicas de preentrenamiento y ajuste fino de LLMs y descubrieron que, particularmente para modelos de gran tamaño como LLaMA 65B, las economías de memoria podrían superar el 30%. Esta significativa mejora no solo hace que el entrenamiento de estos modelos sea más barato, sino que también podría desbloquear capacidades de desarrollo que ahora están restringidas a grandes corporaciones tecnológicas.

El uso de matrices de proyección aleatorias permite a CompAct evitar la sobrecarga adicional de memoria y presumiblemente podría escalar aún más con modelos más grandes. Durante la retropropagación, CompAct solo descomprime los gradientes al tamaño completo para el paso de actualización, lo que traduce a importantes ahorros de memoria.

Este avance no se trata solo de memoria ahorrada; también implica una mejora en el equilibrio entre rendimiento de cálculo y eficiencia durante el preentrenamiento de LLMs, lo que puede ser crítico para investigadores que enfrentan limitaciones de hardware.

A pesar de estas innovaciones, el uso de matrices aleatorias gaussianas puede introducir alguna sobrecarga computacional adicional. Sin embargo, la potencial mejora con el tiempo, a través de la incorporación de proyecciones aleatorias dispersas, podría aumentar la eficiencia y propiciar el desarrollo de modelos más complejos.

En resumen, la investigación detrás de CompAct introduce una metodología innovadora en el campo de los modelos de lenguaje, logrando un considerable ahorro de memoria y aprovechando técnicas avanzadas de compresión que facilitan el entrenamiento de modelos de manera accesible para un espectro más amplio de investigadores.

Solo noticias

y ya

CompAct: Innovación en Reducción de Memoria para Modelos de Lenguaje