Investigadores del Instituto de Ciencia de la Información de la Academia Sinica han dado un paso significativo en el campo de la visión por computadora. Presentan un módulo innovador denominado Retriever-Dictionary (RD), diseñado para mejorar los modelos YOLO de detección de objetos, permitiéndoles recuperar eficientemente características a partir de un diccionario enriquecido con conocimientos explícitos extraídos de modelos visuales y de lenguaje. Este enfoque promete una mejora del rendimiento de más de un 3% en la precisión promedio de detección de objetos, manteniendo un incremento de menos del 1% en los parámetros del modelo.
El RD permite a los modelos de detección de objetos acceder a un conjunto de características enriquecidas que priorizan información crítica del conjunto completo de datos. Esta arquitectura no solo amplía la capacidad de los modelos YOLO para tareas de detección, clasificación y segmentación, sino que también beneficia arquitecturas basadas en DETR y modelos de dos etapas como Faster R-CNN.
Los experimentos realizados utilizando el RD han demostrado mejoras significativas en el rendimiento de los modelos, evidenciando su efectividad al refinar el uso de información crítica del conjunto de datos sin necesidad de incrementar sustancialmente la carga computacional. Gracias al uso del módulo, se logra una detección de objetos más precisa y eficiente, lo cual es crucial para aplicaciones en tiempo real como el análisis de imágenes médicas y la conducción autónoma.
El módulo Retriever actúa filtrando información irrelevante y resaltando datos cruciales, mientras que el diccionario, compuesto por átomos representativos del conjunto de datos, permite una selección eficaz de características durante el entrenamiento. Esto asegura que los modelos con el módulo RD alcancen un equilibrio entre precisión, eficiente uso de parámetros y baja latencia.
En conclusión, esta innovación representa un avance en el modo en que los modelos de visión por computadora pueden almacenar y utilizar información de manera más eficiente. El enfoque no solo refina el proceso de detección, sino que además sienta las bases para explorar más a fondo la integración de conocimiento explícito externo en modelos de visión por computadora en tiempo real.