Vision Transformers han revolucionado las tareas de visión computacional, alcanzando un rendimiento líder gracias a su mecanismo de Multi-Head Self-Attention (MHSA) que permite que cada cabeza aprenda representaciones distintas de un problema. Sin embargo, la interacción entre las cabezas en MHSA no ha sido profundizada, un vacío que los investigadores Tianxiao Zhang, Bo Luo y Guanghui Wang buscan llenar con su innovadora técnica de encabezados superpuestos.
La propuesta, denominada Multi-Overlapped-Head Self-Attention (MOHSA), introduce una diferencia clave: en lugar de particionar estrictamente las cabezas en el cálculo de atención, este método las superpone suavemente para examinar las interacciones entre ellas. Esto se traduce no sólo en una mejor capacidad de aprendizaje de las representaciones sino también en un rendimiento significativamente mejorado en modelos de transformadores de visión.
La técnica MOHSA funciona al permitir el intercambio de información al calcular las atenciones de cada cabeza sobre su espacio inmediato vecinal, utilizando un pequeño relleno para las cabezas situadas en los extremos del conjunto. Aunque este enfoque requiere un ligero incremento en cómputo y parámetros, el rendimiento mejorado en diversas tareas de visión lo compensa ampliamente. Los investigadores han puesto a prueba esta metodología en múltiples modelos de transformadores de visión probados sobre cuatro conjuntos de datos de referencia (CIFAR-10, CIFAR-100, Tiny-ImageNet e ImageNet-1k).
Los resultados han sido categóricos. Los transformadores de visión con MOHSA no solo mostraron un rendimiento superior, sino que también demandaron una sobrecarga mínima en términos de parámetros. De hecho, el uso de diversas variantes del método ofreciendo diferentes proporciones de superposición, documentó un aprovechamiento más óptimo de los datos.
La labor de Zhang, Luo y Wang representa una frontera prometedora en efectividad de los transformadores de visión. No sólo optimizan el flujo de información en cada proceso de cálculo de atención, sino que también diversifican las estrategias para ajustarse a diversas aplicaciones de visión por computadora.
En conclusión, el lanzamiento de MOHSA proporciona un hito en el ciclo de avances de los transformadores de visión. La compatibilidad con diferentes ajustes de superposición trae de vuelta a la actualidad el debate sobre la mejora en la comunicación inter-cabezas en modelos de aprendizaje profundo, haciendo a los transformadores más robustos y versátiles para desempeñar en condiciones de trabajo variables.