Solo noticias

y ya

viernes 11 de de 2024

DART: Innovador modelo de Apple revoluciona la generación de imágenes

Investigadores de Apple, junto con colaboradores de la Universidad China de Hong Kong y Mila, han introducido DART, un nuevo modelo generativo que integra técnicas autoregresivas con un marco de difusión no Markoviana para la generación de imágenes a partir de texto. Este enfoque busca superar las limitaciones de los modelos de difusión tradicionales, que a menudo son ineficientes en términos de entrenamiento y generación debido a su dependencia del proceso de Markov.

En el núcleo de DART está su capacidad para denoise espacial y espectralmente los fragmentos de imagen mediante un modelo autoregresivo similar a los modelos de lenguaje estándar. A diferencia de los modelos de difusión convencionales, DART no se basa en la cuantización de imágenes, lo que le permite modelar imágenes de manera más efectiva mientras mantiene la flexibilidad.

El enfoque transformador de DART se entrena simultáneamente con datos de texto e imagen en un modelo unificado, mostrando un rendimiento competitivo en tareas de generación condicionada por clase y generación de imágenes a partir de texto. Al eliminar la dependencia del supuesto Markoviano, DART es capaz de utilizar de manera más eficaz la trayectoria generativa durante el entrenamiento y la inferencia.

Para abordar las limitaciones del enfoque no Markoviano, DART incluye dos mejoras principales: 1) el modelado autoregresivo de nivel de token, que permite un control más fino y una calidad de generación mejorada; y 2) un módulo de refinamiento basado en flujo que mejora la expresividad del modelo y suaviza las transiciones entre pasos de denoise.

Como resultado de estas innovaciones, DART ofrece una alternativa escalable y eficiente a los modelos de difusión tradicionales, logrando un rendimiento competitivo para la síntesis de imágenes controlables de alta calidad.

En conclusión, DART no sólo ofrece una solución unificada y flexible para la síntesis visual de alta calidad, sino que también establece un nuevo estándar para la generación escalable de imágenes.