Revolución en la Edición Visual con LLM

Tema Principal: Avance significativo en la edición de vídeos en tiempo real mediante el uso de modelos de lenguaje en tareas de modificación visual.

[CATEGORÍA]: tecnología

[FACTUALES]:

Se ha desarrollado un enfoque de destilación para usar modelos de lenguaje (LLM) en tareas de edición visual en tiempo real.
El enfoque se basa en afinar modelos LLM para que invocan herramientas existentes a partir de solicitudes estilísticas del usuario.
Los modelos de lenguaje propietario, como GPT-3.5-Turbo, muestran potencial pero enfrentan costos altos y latencias.
Se utiliza un modelo LLM más pequeño y de código abierto, asesorado por un modelo LLM más grande y señales de comportamiento del usuario.
Se introdujeron métricas fuera de línea para evaluar los modelos estudiantes.
Los experimentos en línea y fuera de línea muestran que los modelos estudiantes igualan el desempeño del modelo maestro.
El enfoque permite ajustes tonales en videos mediante instrucciones textuales.
En regímenes de datos bajos, la afinación mejora en un 25% con aumentación de datos.
La creación de datos incluye recoger el resultado de un LLM maestro basado en intenciones del usuario.
Utilización de tres herramientas de ajuste tonal: ajuste global, ajuste selectivo y filtros.
Se realizaron más de 9,252 intenciones de usuario únicas.
Los datos se dividen aleatoriamente en conjuntos de entrenamiento y prueba.
Evaluaciones en línea y fuera de línea muestran un rendimiento comparable entre modelos de estudiantes y el maestro.
La solución busca democratizar capacidades avanzadas de edición.
Se logró una notable reducción de costos y latencia con esta solución.
La propuesta es viable para la industria debido a su eficacia y bajo costo.
La especialización en afinaciones son aplicables en aplicaciones móviles.
Se incluyen mecanismos de pensamiento encadenado (CoT) para mejorar la rendimiento e interpretabilidad de los LLMs.
Existen desafíos en el uso continuo de modelos basados en difusión para edición de video debido a la calidad visual y control del usuario.
La generación de datos se basa en la intención del usuario y la salida de un modelo LLM más grande.

[TEXTO PRINCIPAL]: En un mundo donde la comunicación visual es cada vez más prominente, se ha dado un gran paso hacia la democratización de la edición de imágenes y vídeos de forma intuitiva y en tiempo real. Investigadores de la Universidad Hebrea de Jerusalén y Lightricks han desarrollado un enfoque innovador que aprovecha los modelos de lenguaje de gran magnitud (LLM) para realizar ajustes visuales precisos sobre vídeos e imágenes a partir de simples instrucciones textuales.

El objetivo es claro: culminar una perfecta integración entre las demandas estilísticas de los usuarios y las capacidades de edición sofisticadas, manteniendo bajos costos y latencias aceptables para aplicaciones móviles.

El método se fundamenta en la utilización de LLM más pequeños que actúan como estudiantes, siguiendo el ejemplo de LLM diseñado como maestros. Esto incluye la introducción de métricas que permiten evaluar la eficiencia de estos estudiantes en contextos offline antes de su despliegue masivo.

A pesar de que modelos como el GPT-3.5-Turbo demostraron ser eficientes, sus desventajas en término de costo y tiempos de espera impulsaron la búsqueda de alternativas dentro del software de código abierto, ajustando sus capacidades mediante la enseñanza y datos adquiridos a través de complejas cadenas de herramientas.

Dentro del marco experimental, se realizaron pruebas utilizando tres herramientas principales de ajuste tonal: ajuste global, ajuste selectivo y filtros, promoviendo una experiencia visual única en el usuario.

Los resultados son prometedores. Evaluaciones tanto en línea como fuera de línea confirmaron que los LLM estudiantes igualaron la competencia del modelo maestro, consiguiendo una optimización notable en costos y latencias—una característica crucial para la industria móvil actual.

Este avance sugiere que estamos en el umbral de una nueva era donde la edición de vídeo podría estar al alcance de todos, simplificada a niveles sin precedentes pero con la profesionalidad de un experto. Hacia el futuro, este enfoque no solo promete ampliar las capacidades creativas de los usuarios cotidianos, sino que también podría revolucionar el modo en que las aplicaciones móviles producen contenido visual de forma eficiente y eficaz.

[TITULO_PRINCIPAL]: Revolución en la Edición Visual con LLM

[SUBTITULO]: Nueva técnica reduce costos y mejora la experiencia en la edición de videos móviles.

[TEMAS]:

Edición visual
Modelos de lenguaje
Aplicaciones móviles
Tonalidades de video
Inteligencia artificial

Solo noticias

y ya

Revolución en la Edición Visual con LLM