Un reciente estudio realizado por investigadores de Adobe Media and Data Science Research (MDSR), junto con otras instituciones académicas, ha revelado que el entrenamiento de Modelos de Lenguaje y Visión (VLMs) utilizando el comportamiento de los receptores, como “likes” y comentarios, mejora significativamente su capacidad para entender el contenido. Este método de entrenamiento, llamado Behavior-LLaVA, utiliza un vasto conjunto de datos llamado BLIFT, que comprende 730,000 imágenes y videos con sus respectivos comportamientos de los receptores, recolectados de plataformas como YouTube y Reddit.
El estudio indica que debido a que estos comportamientos ya se recogen por defecto en internet, no requieren anotaciones humanas adicionales, lo que supone una mejora en el rendimiento con un bajo costo. La metodología permite que VLMs sobresalgan en tareas de comprensión de contenido posterior, superando a muchos modelos supervisados en tareas diversas que van desde el reconocimiento de emociones hasta la generación de subtítulos.
El impacto es notable, el Behavioral-LLaVA mostró mejoras de hasta un 150% en comparación con modelos supervisados tradicionales, abarcando comportamientos de seis tipos distintos y 46 tareas diferentes a través de 26 conjuntos de datos de referencia.
Además, esta investigación destaca cómo señales perceptuales de comportamiento, como los “likes” y comentarios de los usuarios, pueden usarse para inferir información crucial sobre el contenido, mejorando tareas de comprensión de alta complejidad y brindando una dirección más robusta para interpretrar emociones y sentimientos dentro de videos e imágenes.
El estudio también sugiere una diferencia significativa entre los datos comportamentales de percepción y acción. Mientras que los datos de percepción requieren entornos de laboratorio para su recopilación, los de acción, que incluyen “likes” y comentarios, son más fáciles de recopilar a gran escala.
En conclusión, se demuestra que integrar el comportamiento humano en el entrenamiento de modelos VLMs no sólo es viable sino ventajoso, abriendo nuevas posibilidades en la mejora continua de modelos basados en comprensión multimedial y generación de contenidos adyacentes.