Investigadores de Sony AI y la Universidad de Stanford han desarrollado un nuevo enfoque para mejorar los modelos de difusión continua aplicados a datos categóricos, superando una limitación clave: el colapso del embebido, un problema que degrada la calidad de generación de datos en dichos modelos.
Generalmente, los modelos de difusión trabajan de manera eficiente con datos continuos, pero enfrentan retos significativos al aplicarse a datos categóricos. Los modelos previos han intentado remediar estos problemas utilizando distintos métodos, como las técnicas de corrupción discreta, pero estas no suelen borrar gradualmente el significado semántico de los datos, afectando la calidad final.
El nuevo método, denominado CATDM, introduce un marco de difusión continua en el espacio del embebido y combina una novedosa función de objetivo que incluye una consistencia de emparejamiento como regularizador, un programa de ruido coseno cambiado y una estrategia de caída aleatoria. Estos cambios ayudan a evitar el colapso de embebidos, el cual es causado mayormente por una pérdida de reconstrucción insuficiente y un excesivo poder del ajuste de puntuaciones al modelar el umbral inferior variacional.
Las pruebas realizadas en benchmarks como FFHQ, LSUN Churches y LSUN Bedrooms han demostrado que CATDM no solo mitiga el problema de colapso, sino que además produce resultados superiores con un FID notablemente bajo de 6.81 en ImageNet 256 x 256 usando 50 pasos. De esta forma, CATDM supera a otros modelos no auto-regresivos en tareas de traducción automática e iguala a métodos anteriores en generación de texto.
Además, CATDM ha demostrado ser altamente eficiente en diversas tareas, desde la generación visual y de texto hasta la traducción automática, abriendo el camino para futuras aplicaciones en tareas que involucren variables categóricas como los gráficos y el audio.
En conclusión, el estudio ha demostrado que la solución al problema de colapso de embebidos no solo mejora la fidelidad y calidad de los modelos de difusión, sino que sugiere que estas mismas técnicas pueden aplicarse a una serie de problemas diferentes relevantes para el procesamiento moderno de datos.