Un grupo de investigadores de la Universidad de Tohoku ha llevado a cabo un estudio exhaustivo para evaluar los beneficios del Open-Vocabulary Object Detection (OVD) en comparación con el Closed-set Object Detection (COD) dentro del ámbito de la detección de objetos con pocos ejemplos, conocido como Few-Shot Object Detection (FSOD). Este enfoque revolucionario del OVD permite la identificación de clases de objetos específicas basándose únicamente en sus descripciones textuales, descartando la necesidad de ejemplos visuales durante el entrenamiento.
La investigación se ha centrado en determinar si las ventajas del OVD justifican el mayor coste computacional cuando se trata de clases de objetos difíciles de describir textualmente. Para ello, han introducido un nuevo método que cuantifica la “describabilidad textual” de los conjuntos de datos de detección de objetos, utilizando la precisión en clasificación de imágenes de zero-shot de CLIP como indicador. Así, los investigadores han podido evaluar empíricamente el rendimiento de los métodos OVD y COD, clasificando los datasets en función de su describabilidad textual.
Los resultados obtenidos son reveladores: cuando se aplican condiciones igualitarias en el preentrenamiento, no hay mucha diferencia entre OVD y COD para clases de objetos con baja “describabilidad textual”. Aunque OVD puede aprovechar datos más diversos que los específicos de detección de objetos, en realidad puede ser contraproducente para clases difíciles de verbalizar. Este hallazgo proporciona una orientación valiosa para los profesionales en medio de los avances recientes de los métodos OVD.
Además, los experimentos muestran que aunque OVD supera significativamente a COD en entornos donde las clases de objetos son fácilmente describibles textualmente, esta superioridad desaparece en casos donde la descripción con palabras es más complicada. Paradójicamente, el uso de grandes volúmenes de datos de preentrenamiento, una de las ventajas de OVD, puede no ser útil o incluso ser un obstáculo en estas circunstancias.
Con base en estos hallazgos, se recomienda a los profesionales que utilizan FSOD en casos donde las categorías de objetivos sean difíciles de describir con texto, considerar las ventajas de utilizar métodos COD sobre OVD para una eficiencia óptima. Así, la investigación proporciona un mapa de ruta para quienes navegan el cambiante panorama de los métodos avanzados de detección de objetos, buscando la mejor aproximación para sus necesidades específicas.