Investigadores del Rensselaer Polytechnic Institute e IBM han desarrollado un nuevo método de entrenamiento para redes neuronales profundas utilizando aceleradores de computación en memoria analógica (AIMC, por sus siglas en inglés). Este método tiene como objetivo reducir el consumo de energía y acelerar el proceso sin necesidad de transferir los pesos entrenables de la memoria a los procesadores durante el entrenamiento, una solución ideal para el creciente volumen y tamaño de los modelos de DNN.
Los aceleradores AIMC almacenan los pesos en baldosas de tipo crossbar analógicas, manteniéndolos estacionarios para ejecutar operaciones de multiplicación-acumulación (MAC) de manera eficiente, minimizando el tiempo y consumo de energía. Sin embargo, este sistema limita el paralelismo de datos, una mecánica clave para los entrenos a gran escala en ordenadores digitales.
Para sortear estas limitaciones, se propone el uso de paralelismo en pipeline, tanto síncrono como asíncrono, inspirado en las técnicas digitales tradicionales, para permitir entrenos paralelos en AIMC. El enfoque consiste en dividir un gran modelo en una serie de etapas más pequeñas distribuidas en múltiples dispositivos, lo que permite que las operaciones ocurran simultáneamente en diferentes dispositivos.
El paralelismo síncrono se caracteriza porque los pesos se actualizan usando los gradientes más recientes, asegurando una convergencia similar a la del Descenso de Gradiente Estocástico (SGD). No obstante, el mayor desafío es la presencia de señales de gradiente ruidosas y actualizaciones asimétricas intrínsecas a los AIMC, que introducen errores durante el proceso de entrenamiento.
A pesar de estos desafíos, la implementación de pipelines mejora notablemente la eficiencia. Las simulaciones muestran que ambos métodos de pipeline son significativamente más eficientes que métodos no basados en parallelismo, evidenciando un aumento de la velocidad lineal dentro del rango de 1 a 8 dispositivos. Esto potencia el entrenamiento de modelos más grandes al incrementar la densidad de computación.
En conclusión, aunque el método de paralelismo síncrono tiene una mejor complejidad en cuanto a muestreo, el asíncrono reduce la inactividad del dispositivo aunque implique gradientes obsoletos. Esto revela que los aceleradores AIMC pueden ser clave para abordar los crecientes requerimientos computacionales de DNN grandes, siempre y cuando se superen las limitaciones físicas actuales, permitiendo avances significativos en procesamiento eficiente de datos a gran escala.