SeeDo: Modelos de Lenguaje y Visión que Enseñan a Robots desde Videos Humanos

Investigadores han avanzado en la integración de la inteligencia artificial y los robots mediante modelos de lenguaje y visión (VLMs). Este enfoque, denominado SeeDo, busca interpretar videos de demostraciones humanas para generar planes de tareas para robots, especialmente en escenarios de larga duración, como la organización de objetos o la construcción con bloques de madera, asegurando que puedan replicar tareas de manera eficiente.

Para validar SeeDo, se desarrolló un conjunto de métricas y se realizaron pruebas comparativas con modelos de última generación basados en video. Los resultados demostraron el rendimiento superior de SeeDo al facilitar la interpretación y ejecución de tareas por parte de los robots, incluso en entornos simulados y del mundo real. Los elementos clave del pipeline incluyen la selección de fotogramas relevantes y el uso de percepciones visuales mejoradas para optimizar las capacidades de los modelos lingüísticos, lo que permite convertir planes generados en código para su ejecución robótica.

En el contexto experimental, se recopilaron videos de demostraciones humanas en diversas categorías como la organización de vegetales, organización de prendas de vestir y apilamiento de bloques de madera, todas con intensas dependencias espaciales y temporales. Se utilizó un robot brazo en el mundo real para poner a prueba los planes generados, logrando ejecutar tareas tal como se demostraron en los videos, mostrando la robustez del sistema en situaciones cambiantes del entorno.

Una de las principales fortalezas de SeeDo es el manejo de la generalización, es decir, la capacidad para mantener la validez de los planes en diferentes configuraciones de objetos y ambientes, gracias al conocimiento semántico común proporcionado por los VLMs. No obstante, persisten desafíos, especialmente en cuanto a la precisión necesaria para interpretar y mantener relaciones espaciales complejas a lo largo de las tareas.

En conclusión, SeeDo representa un importante avance en la capacidad de los robots para aprender tareas directamente de videos humanos, abriendo el camino para la expansión de robots capaces de realizar tareas que van más allá de operaciones rudimentarias, incrementando su utilidad en escenarios cotidianos y complejos.

Solo noticias

y ya

SeeDo: Modelos de Lenguaje y Visión que Enseñan a Robots desde Videos Humanos