Revolución en la detección de interacciones humano-objeto sin anotaciones

Investigadores de la Universidad Tecnológica de Nanyang han desarrollado un innovador método llamado CL-HOI que responde a un desafío crítico en el campo de la visión por computadora: detectar interacciones humano-objeto (HOI) sin recurrir a anotaciones manuales. Tradicionalmente, la identificación de estos pares y sus correspondientes interacciones ha dependido de modelos de lenguaje visual (VLMs), que, aunque efectivos, requieren grandes cantidades de anotaciones manuales, lo que aumenta la carga computacional y limita su aplicabilidad.

El nuevo enfoque, descrito en el documento de Jianjun Gao y su equipo, se basa en la destilación de interacciones a partir de modelos de lenguaje visual grandes (VLLMs). Este avance permite que los modelos no solo reconozcan escenas a nivel general, sino que trasladen estas capacidades al nivel de instancia, asociando objetos en una imagen con humanas específicas, todo sin necesidad de rótulos manuales.

CL-HOI opera en dos fases: destilación de contexto e interacciones, utilizando un Traductor Visual Lingüístico que convierte la información visual en formato lingüístico y una Red Cognitiva de Interacciones que razona sobre relaciones espaciales, visuales y contextuales. Este proceso se beneficia además de pérdidas de distilación contrastiva, mejorando así la detección de HOI de manera eficiente.

Los resultados obtenidos en las evaluaciones de datasets como HICO-DET y V-COCO demuestran que CL-HOI supera a los métodos supervisados débilmente existentes y muestra resultados comparables a métodos completamente supervisados, lo cual es un testimonio claro de su eficacia.

En conclusión, CL-HOI representa un avance significativo hacia una inteligencia artificial más autónoma y capaz, mostrando cómo aprovechar modelos grandes de lenguaje visual para tareas específicas de visión por computadora. Este enfoque no solo ofrece mejoras técnicas en la destilación de conocimientos, sino que también abre puertas a aplicaciones prácticas sin requerir anotaciones, facilitando así la implementación en diferentes campos como la vigilancia y la interacción humano-robot.

Solo noticias

y ya

Revolución en la detección de interacciones humano-objeto sin anotaciones