La generación de videos de alta calidad basada en texto presenta avances prometedores en la actualidad, con modelos similares a SORA logrando mejorar la resolución, el movimiento natural y la alineación entre visión y lenguaje. Estos modelos han pasado de arquitecturas UNet a arquitecturas más complejas, con una expansión de datos y estrategias de entrenamiento refinadas para trabajar con secuencias de videos largas.
A pesar de los desarrollos, una evaluación exhaustiva que abarque todas las capacidades e implementaciones de estos modelos sigue siendo escasa. Además, las métricas de evaluación automatizadas aún luchan por alinearse con las preferencias humanas, rescatando la necesidad de un enfoque más centrado en el usuario. La generación de videos no solo depende de los algoritmos sino también requiere la construcción de modelos con grandes recursos computacionales.
La disparidad en el rendimiento entre modelos de código abierto y cerrado sigue siendo notable, señalando un vacío significativo en términos de entrenamiento de modelos y su acceso compartido. Mientras tanto, el aumento de modelos cerrados indica una tendencia hacia lanzamientos comerciales con aplicaciones prácticas pero a menudo privadas.
Con propósito general, los modelos SORA se enfrentan a desafíos en términos de generación precisa alineada a texto, sobre todo en escenarios complejos como interacciones físicas o movimientos dinámicos, donde los modelos actuales aún muestran fallos significativos. Aun así, estos modelos muestran un gran potencial en aplicaciones como animaciones humanas y la generación creativa de secuencias realistas.
Finalmente, mientras los esfuerzos actuales se centran en evaluar estos modelos cualitativamente, queda un largo camino por recorrer para sintonizar sus capacidades con las expectativas y necesidades reales de los usuarios, asegurando consistencia, diversidad y realismo en los videos generados.