Científicos del CCSE en la Universidad de Beihang han abordado un importante desafío en el campo de los modelos de incrustación de texto general mediante la técnica del “model merging”. Esta innovación pretende mitigar los problemas que surgen del entrenamiento conjunto en múltiples tareas, a saber, los conflictos de gradiente y los desequilibrios de datos. La investigación ha demostrado que, durante el entrenamiento de múltiples tareas, los gradientes de unas pueden interferir con otras, provocando el fenómeno de la transferencia negativa. Este fenómeno es responsable de que los modelos no cumplan con su potencial al ser entrenados conjuntamente en lugar de hacerlo de forma independiente.
Para abordar estos problemas detectados en su análisis, el equipo propuso la técnica del “model merging”, que ofrece la combinación de modelos entrenados de manera independiente. Esta técnica busca optimizar las posiciones de peso mediante la búsqueda eficiente en el espacio de interpolación de vectores de tarea utilizando descenso de gradiente estocástico. Asimismo, introducen un método novedoso conocido como Self Positioning, que ayuda a encontrar combinaciones óptimas de modelos dentro de este espacio. Las pruebas realizadas indicaron que el método Self Positioning mejora significativamente el rendimiento en la evaluación múltiple de tareas del Massive Text Embedding Benchmark (MTEB), logrando una mejora absoluta de 0.7 puntos en el rendimiento.
Los resultados ponen de manifiesto que la fusión de modelos supera el enfoque tradicional de re-muestreo, logrando un rendimiento mejorado con costos computacionales más bajos. Esta innovación abre nuevas posibilidades para la creación de modelos de incrustación de texto más generalizados y resistentes, capaces de ofrecer resultados superiores en diversas tareas relacionadas con la incrustación de texto.