Innovación en Poda de Modelos de Lenguaje Masivos: SparseGPT

Investigadores de la Universidad Northeastern y Meta han presentado un avance significativo en la compresión de modelos de lenguaje grandes, como los Transformers. La propuesta, denominada SparseGPT, permite podar estos modelos sin necesidad de un proceso de reentrenamiento, lo cual representa un ahorro considerable en recursos de datos y computación.

El método tradicional de poda requiere un ajuste fino de modelos, utilizando grandes volúmenes de datos y múltiples ciclos de entrenamiento, lo que implica un alto costo computacional. Sin embargo, SparseGPT introduce un nuevo enfoque que optimiza el rendimiento sin este proceso extensivo. Esto se logra mediante una técnica de poda posterior al entrenamiento, lo que permite reducir el tamaño del modelo y acelerar la inferencia utilizando solo una pequeña cantidad de datos de calibración.

Una de las innovaciones clave es su capacidad para cargar de manera secuencial bloques de transformador en lugar de todo el modelo, lo que resulta en una reducción drástica del coste de memoria durante la poda. Además, este método reduce significativamente los requisitos de hardware gracias a su arquitectura de sparsidad estructurada.

SparseGPT aborda un problema conocido como el Problema de Eliminación Múltiple, una variante más compleja del tradicional Problema de Eliminación Única. Esta solución logra mantener o incluso superar la precisión de los métodos previos aplicando técnicas de aproximación detalladas, cuidando además de no degradar el rendimiento del modelo prunado.

Los experimentos extensivos realizados demuestran que SparseGPT supera su rendimiento comparado con otros enfoques estándar en diversas familias de modelos de lenguaje de gran escala, incluidos los basados en transformadores y constructos tipo Mamba.

Así, la investigación avanza hacia modelos de lenguaje que no solo preserven su desempeño, sino que sean más accesibles y asequibles en términos de energía y recursos técnicos, preparando el terreno para aplicaciones más inclusivas y de amplio alcance.

Solo noticias

y ya

Innovación en Poda de Modelos de Lenguaje Masivos: SparseGPT