Solo noticias

y ya

viernes 11 de de 2024

Revolución en la Animación Facial 3D: Presentan MMHead

Investigadores de la Universidad Jiao Tong de Shanghái han anunciado un avance significativo en el ámbito de la animación facial en 3D. Han creado MMHead, el primer conjunto de datos de animación facial multimodal en 3D, que se distingue por sus anotaciones textuales jerárquicas y detalladas. Este desarrollo no solo aborda la escasez de datasets disponibles sino que también establece nuevos criterios de referencia para tareas innovadoras como la generación de cabezas parlantes en 3D inducidas por texto y la generación de movimientos faciales en 3D a partir de descripciones textuales.

MMHead es resultado de la integración de cinco datasets públicos de videos de retratos en 2D. Por medio de un enfoque automatizado que combina la reconstrucción en 3D del movimiento facial desde videos monóculos y la detección de unidades de acción, se crean secuencias animadas faciales que son anotadas de manera automatizada utilizando modelos de lenguaje como ChatGPT.

Este dataset alberga 49 horas de secuencias de movimiento facial y abarca una amplia variedad de acciones, emociones, y posturas de la cabeza. Está diseñado para ser utilizado en la creación de contenido multimedia, juegos y producción de cine, facilitando el proceso de animación con detalladas descripciones textuales de acciones abstractas, emociones, expresiones faciales y posturas de la cabeza.

Para asegurar la viabilidad y utilidad de MMHead en el desarrollo de animaciones faciales avanzadas, los investigadores desarrollaron dos benchmarks. El primero, destinado a la animación de cabezas parlantes en 3D inducidas por texto, busca sincronizar el movimiento de los labios con audio hablado. El segundo benchmark, la generación de mociones faciales en 3D a partir de textos, permite la creación de expresiones faciales complejas únicamente guiadas por instrucciones textuales.

El enfoque innovador para unificar la información mediante MM2Face, una metodología basada en VQ-VAE, permite la generación de movimientos faciales diversos y plausibles, destacando especialmente en precisión en benchmarks existentes.

En conclusión, la introducción de MMHead podría cambiar paradigmas en la animación digital multimodal, promoviendo investigaciones futuras en este ámbito y facilitando la generación de contenido audiovisual más realista y variado.