Investigadores de la Universidad de Ciencia de China en conjunto con Huawei Inc. han dado un paso significativo en la aplicación de la arquitectura Mixture-of-Experts (MoE) a modelos de visión, transformando el clásico Vision Transformer (ViT) en una estructura más eficiente y escalable llamada ViMoE. Este modelo promete aumentar la capacidad de los modelos mientras se optimiza su uso de recursos, esencialmente revolucionando la forma en la que se aborda la clasificación de imágenes.
ViMoE se distingue al integrar capas MoE dentro de ViT, pero para alcanzar un desempeño óptimo, se requiere un diseño cuidadoso de las capas MoE. Hallaron que los diseños inapropiados podían llevar a un enrutamiento poco fiable, dificultando así la capacidad de especialización de los expertos. Para superar este obstáculo, introdujeron un experto compartido que actúa como un puente de conocimiento común. Esto aporta estabilidad al modelo, permitiendo que al eliminar capas redundantes, se conserve la eficiencia sin sacrificar la precisión.
Un aspecto crítico para maximizar el rendimiento de ViMoE consistió en escanear el número de capas MoE necesarias y su ubicación, concluyendo que un exceso de capas puede ser contraproducente, orientando su diseño hacia una configuración más conservadora de capas críticas. Descubrieron que las capas MoE en los bloques profundos de ViT son cruciales para la división efectiva de tareas entre expertos, mientras que las capas poco profundas no muestran el mismo nivel de especialización.
La inclusión de un experto compartido ha estabilizado y simplificado el proceso de diseño de ViMoE. Con él, el modelo no solo evita la degradación del rendimiento en configuraciones densas de MoE, sino que también mejora la precisión. El ViMoE con expertos compartidos supera incluso a los modelos avanzados en ImageNet1K, destacándose por activar sólo un tercio de los parámetros tradicionales.
En conclusión, ViMoE no solo representa una mejora significativa en eficiencia y rendimiento para la clasificación de imágenes, sino que también ofrece un marco prometedor para futuros desarrollos en el ámbito de modelos de visión. Este estudio establece un nuevo horizonte tanto para la investigación como para la práctica, sugiriendo que las MoE se conviertan en un estándar para tareas de visión en la inteligencia artificial. Con creciente adopción, estas observaciones proporcionarán un valioso material de referencia para la integración de MoE en otros modelos de visión.