Investigadores de la Universidad de Hefei han desarrollado un revolucionario modelo de reconocimiento de emociones faciales llamado Poker Face Vision Transformer (PF-ViT), diseñado para identificar emociones en expresiones faciales sin la necesidad de imágenes emparejadas. Este enfoque se basa en una técnica innovadora que convierte las expresiones emotivas en una “cara de póquer” o rostro inmutable para aislar y reconocer emociones, superando métodos convencionales que dependen de conjuntos de datos pre-etiquetados con emociones.
El modelo PF-ViT utiliza Transformadores de Visión (ViTs) preentrenados en un gran conjunto de datos de expresiones faciales sin etiquetas emotivas. De este modo, el sistema puede capturar detalles faciales distintivos sin ser influido por las etiquetas emocionales ambiguas que a menudo presentan los conjuntos de datos tradicionales de reconocimiento de emociones faciales (FER).
Uno de los obstáculos significativos en el reconocimiento de emociones es la dificultad para mapear explícitamente una imagen facial a través de etiquetas emocionales debido a esta ambigüedad inherente. Sin embargo, PF-ViT supera este desafío mediante una Arquitectura de Codificadores-Autoenmascaradores (MAE), respondiendo a la necesidad de datos de entrenamiento sustancialmente etiquetados para lograr un rendimiento excelente en el reconocimiento facial.
Durante el entrenamiento, PF-ViT se utiliza dentro de una Arquitectura Generativa Adversaria (GAN) más amplia para fomentar la separación efectiva de componentes emocionales y no emocionales en imágenes faciales. Esto permite al modelo discernir entre expresiones como felicidad, tristeza, y desdén a partir de los movimientos musculares faciales subyacentes de una “cara de póquer”, facilitando aplicaciones potenciales en evaluación de salud mental y análisis de comportamiento visual.
Los resultados cuantitativos obtenidos han demostrado que este método supera significativamente los métodos contemporáneos en cuatro conjuntos de datos populares de FER en el mundo real, alcanzando un rendimiento sin precedentes en la preservación de detalles faciales relevantes.
Finalmente, el desarrollo de PF-ViT abre nuevas vías para el reconocimiento de emociones en ambientes desafiantes, ampliando el alcance de los estudios no verbales sobre comportamiento humano. Esta tecnología promete no sólo mejorar la precisión en la identificación de emociones en imágenes no emparejadas, sino también ser aplicada en evaluaciones de salud mental o sistemas avanzados de interacción humano-ordenador. En conclusión, este avance representa un salto cualitativo en el uso y aplicación de la inteligencia artificial en el análisis de emociones humanas a través de las expresiones faciales.