La creciente demanda de modelos de embebimiento multimodal ha impulsado la investigación hacia desarrollos que superen las capacidades de las soluciones actuales. Los modelos de embebimiento, que traducen texto e imágenes en vectores de dimensiones fijas, permiten una amplia gama de tareas posteriormente. Aunque se han llevado a cabo importantes avances en embebimientos de texto, el progreso con los modelos multimodal ha sido limitado.
La introducción de benchmarks como MTEB (Massive Text Embedding Benchmark) ha permitido evaluar de manera exhaustiva las capacidades de los modelos de texto, creando un estándar en el campo. Sin embargo, para los embebimientos multimodales no existía un referente similar hasta la aparición de MMEB (Massive Multimodal Embedding Benchmark), diseñado para evaluar modelos utilizando múltiples tareas con combinaciones de texto e imagen.
VLM2Vec se presenta como una solución innovadora que, usando un enfoque de entrenamiento contrastivo, convierte cualquier modelo de visión-lenguaje en un potente modelo de embebimiento. VLM2Vec supera a modelos multimodales previos como CLIP y BLIP al integrar profundamente características visuales y lingüísticas dentro de una arquitectura de transformadores, permitiendo una capacidad de razonamiento y generalización significativamente mayor.
El marco VLM2Vec ha mostrado mejoras absolutas de entre 10% y 20% respecto a modelos previos en las diversas evaluaciones de MMEB, apuntalando su eficacia tanto en datasets de entrenamiento como en evaluaciones fuera de distribución. Este progreso apunta hacia un escenario donde las tareas multimodales complejas se puedan abordar con una eficiencia incremental.
En conclusión, VLM2Vec establece un paso importante hacia modelos universales multimodales que no solo son capaces de procesar cualquier combinación de texto e imagen, sino que son también efectivos en generalizar instrucciones para una amplia gama de tareas sin la necesidad de reformulaciones extensivas o datos específicos. El futuro del embebimiento multimodal se vislumbra se único y prometedor, con herramientas como VLM2Vec liderando el camino.