Solo noticias

y ya

martes 22 de de 2024

Innovación Energética en la Inteligencia Artificial

**Investigación muestra cómo hacer más ecológico el uso de Modelos de Lenguaje de Gran Escala (LLM) en GPUs antiguas


Un grupo de científicos ha propuesto una metodología innovadora que busca hacer más sostenible el uso de Modelos de Lenguaje de Gran Escala (LLM) al aprovechar GPUs antiguas en vez de las modernas, reduciendo así las emisiones de carbono. Con esta propuesta, no solamente se busca un ahorro económico, sino también una mejora considerable en el impacto ambiental. Mediante el uso de técnicas avanzadas como la cuantificación de precisión mixta (M2Cache), el equipo promete romper barreras en la implementación de estos modelos.

Los LLMs, ampliamente reconocidos por su enorme potencial en procesamiento natural del lenguaje, presentan un gran desafío ambiental debido a su enorme cantidad de parámetros y poderosa capacidad de cómputo. Usar GPUs modernas implica emisiones de carbono significativamente altas. Sin embargo, el uso de GPUs anteriores, como el modelo M40, con un tercio de las emisiones del modelo H100, ofrece una alternativa más sustentable sin comprometer en exceso la calidad del servicio.

Las GPU antiguas suelen tener una capacidad limitada de memoria de alta velocidad, lo cual dificulta la gestión y carga de los extensos modelos LLM. Por ejemplo, un modelo LLaMA2 de 70B parámetros típicamente requiere 128GB para la inferencia, lo cual supera el límite de 24GB de memoria HBM de muchas GPUs. Para enfrentar este problema, los investigadores han introducido un nuevo sistema de caché multi-nivel que consigue optimizar la memoria usando SSDs.

Este mecanismo se centra en categorización de alta precisión de los “neuronas” de los LLM y en un complejo sistema de cachés para minimizar el uso de GPU, empleando DRAMs y SSDs como extensores de la memoria GPU en un sistema de niveles. Este innovador enfoque reduce el uso de energía, así como las emisiones asociadas, significando una optimización significativa en el uso de recursos.

Las evaluaciones de M2Cache, llevadas a cabo en modelos como LLaMA-7B y Falcon-40B, han mostrado un aumento en la velocidad de generación de tokens y una reducción en la latencia de inferencia, alcanzando mejoras de hasta 10.51 y reduciendo emisiones de carbono hasta en 7.67 veces, en comparación con otros métodos.

El estudio resalta un futuro más verde para la inteligencia artificial, donde los LLMs no representen una amenaza ecológica. Al evitar la necesidad de fabricar nuevas GPUs y disminuir el consumo energético, se da un paso esencial hacia soluciones tecnológicas más amigables con el planeta.

En resumen, esta propuesta no solo impacta la tecnología de inteligencia artificial actual, sino que también subraya el potencial de hacer que las tecnologías existentes sean más sostenibles y accesibles. Esta investigación demuestra que, con innovaciones en precisión mixta y manejo eficiente de memoria, es posible avanzar hacia aplicaciones de IA más ecológicas sin comprometer el rendimiento.**

“”,“FACTUALES”:[“Los Modelos de Lenguaje de Gran Escala (LLMs) requieren grandes cantidades de potencia computacional “,“Los LLMs incrementan las emisiones de carbono “,“Las GPUs modernas como la H100 son más contaminantes “,“Las GPUs antiguas como la M40 emiten menos CO_2 “,“Implementar LLMs en hardware antiguo es más sostenible “,“La memoria de alta velocidad de GPU antiguas es limitada para LLMs”,