Investigadores del destacado Instituto de Tecnología Avanzada de Shenzhen y el célebre Laboratorio de IA de Shanghái han dado un paso firme hacia la mejora de la generación de imágenes 3D con el innovador sistema MUSES. Especialmente diseñado para abordar los desafíos en la creación de imágenes con múltiples objetos y relaciones espaciales complejas en 3D, este sistema se coloca a la vanguardia de la generación de imágenes controlables con precisión.
El sistema comprende tres componentes esenciales: el Gestor de Disposición, que convierte instrucciones en un diseño en 3D a partir de un layout en 2D, el Ingeniero de Modelos 3D, que calibra y alinea modelos tridimensionales para mejorar su precisión visual, y el Artista de Imágenes, que compone y renderiza las escenas 3D en imágenes finales con control de detalle fino.
Un aspecto relevante del MUSES es su capacidad para superar a las plataformas de generación de imágenes existentes —como DALL-E 3 y Midjourney v6.0— al integrar la planificación de arriba hacia abajo y la generación de abajo hacia arriba. Esto permite una creación automática y precisa de imágenes con objetos controlables en 3D.
El sistema soporta su precisión con diversas pruebas estandarizadas, como el T2I-CompBench y el avanzado T2I-3DisBench, especialmente desarrollado para evaluar la disposición espacial 3D y la orientación de objetos. Las pruebas demuestran consistentemente cómo MUSES supera a sus predecesores en métricas de vinculación de atributos, relaciones espaciales y control numérico de objetos.
En definitiva, MUSES representa un claro avance en la intersección de la generación de imágenes y la simulación del mundo 3D, que no sólo imita a diseñadores profesionales humanos sino que también llena huecos significativos en los bancos de pruebas existentes que adolecían de descripción detallada de las relaciones espaciales complejas en 3D y otras características de los objetos.
El impacto potencial de MUSES promete transformar y expandir las capacidades del modelado predictivo y la visualización tridimensional, abriendo así nuevas avenidas en la esfera de la simulación y desarrollo de contenidos generados por IA.