La investigación abordó un desafío clave: La incapacidad frecuente de los modelos multimodales para manejar información incompleta, una situación común en el mundo real debido a restricciones de privacidad o dificultades de recopilación. Esto provoca un rendimiento reducido cuando falta alguna modalidad de entrada, a pesar de estar preentrenados en datos completos.
Para mitigar estos problemas, los investigadores propusieron un método innovador llamado “Deep Correlated Prompting”. En lugar de simplemente agregar indicaciones independientes a cada capa del modelo, este enfoque aprovecha las correlaciones entre las indicaciones y las características de entrada a lo largo de las capas del modelo. Además, se enfatiza el uso de semánticas complementarias de diferentes modalidades para guiar el diseño de las indicaciones.
El método fue probado exhaustivamente en tres conjuntos de datos populares y demostró una superioridad constante sobre enfoques anteriores, mostrando mejor rendimiento en escenarios donde ciertas modalidades de entrada estaban ausentes.
Este avance representa un paso importante hacia la adaptación eficiente de grandes modelos de aprendizaje multimodal para situaciones del mundo real donde los datos completos pueden no estar siempre disponibles. Esto no solo mejora la accesibilidad de estos modelos para aplicaciones diversas, sino que también garantiza una mejor generalización y confiabilidad en situaciones prácticas.