Solo noticias

y ya

martes 22 de de 2024

C-VUE: Innovación en Comprensión Continua de Videos

Investigadores de Microsoft Research y la Universidad de Nanjing han desarrollado un innovador sistema llamado C-VUE para mejorar la comprensión continua de videos, enfrentando los desafíos inherentes al procesamiento de videos de larga duración en dispositivos de borde. El rápido crecimiento del contenido de video, que incluye eventos multi-escala y sin recortar, ha aumentado la importancia de estos sistemas, sobre todo con el auge de las aplicaciones multi-modales.

C-VUE introduce tres diseños clave: una técnica de modelado de historia de largo alcance que retiene la información histórica del video, una técnica de reducción de redundancia espacial para mejorar la eficiencia del modelado temporal, y una estructura de entrenamiento paralela que usa la pérdida ponderada por fotograma para comprender eventos a múltiples escalas. Este sistema promete alta precisión y eficiencia, operando a velocidades superiores a 30 FPS en dispositivos de borde comunes.

En pruebas comparativas, C-VUE superó a todos los modelos de referencia en términos de precisión. Al aplicarse a un modelo fundacional de video, actuando como codificador, se observó una mejora del 0,46 puntos en una escala de 5 puntos. C-VUE no sólo es eficiente, sino también robusto frente a variaciones en la longitud temporal de los eventos, como se demostró en pruebas con conjuntos de datos del mundo real.

Frente a sistemas tradicionales que se apoyan en características espaciales de fotogramas, C-VUE va más allá al capturar características espacio-temporales en diferentes escalas temporales. Este enfoque le permite mantener una comprensión coherente en eventos de duraciones variables, desde actividades breves hasta complejas acciones de larga duración.

Los desafíos tratados por el equipo incluyen la necesidad de captar características significativas de videos de transmisión en bruto dominados por ruido y redundancia, garantizando al mismo tiempo un procesamiento rápido y eficaz en dispositivos con recursos limitados, como robots y sistemas de IA embebida.