Los modelos de difusión, inicialmente concebidos para la generación de imágenes, se han mostrado versátiles para tareas discriminativas como la segmentación semántica. En este desarrollo, los investigadores han tomado un acercamiento innovador al evaluar las activaciones internas de los modelos de difusión, usualmente utilizadas como señales intermedias, para determinar su capacidad discriminativa.
Estos modelos de difusión funcionan mediante una reconstrucción progresiva de imágenes desde ruidos gaussianos iniciales, donde típicamente se entrena una U-Net para predecir el ruido. En este proceso, las señales intermediarias, conocidas como activaciones, son extraídas y evaluadas en tareas discriminativas, ofreciendo un método simple pero efectivo para la extracción de características densas.
Históricamente, solo se ha examinado una pequeña fracción de las activaciones potenciales dentro de estos modelos, lo que podría limitar el rendimiento en arquitecturas más avanzadas de difusión. No obstante, un nuevo enfoque más holístico se ha propuesto, comprobando una gama más amplia de activaciones y permitiendo una selección cualitativa previa para mejorar la eficiencia y efectividad del proceso de selección de características.
Mediante la evaluación exhaustiva de estas características en diversos modelos de difusión como SDXL y SDv1.5, se pudo validar la superioridad del método propuesto sobre los competidores más avanzados hasta el momento. Las activaciones fueron seleccionadas no solo cuantitativamente, sino también considerando propiedades universales descubiertas en modelos de difusión que las distinguen de otros modelos.
Esta propuesta no solo rejuvenece el enfoque en las características de activaciones sino que también ofrece una validación extensa en tareas discriminativas, estableciendo nuevos estándares para el rendimiento de los modelos de difusión. En conclusión, la identificación y utilización efectiva de las activaciones en un rango más amplio dentro de los modelos de difusión proporciona un abanico amplio de aplicaciones y mejoras en el rendimiento para diversas tareas discriminativas.