Solo noticias

y ya

viernes 11 de de 2024

DyVo: Innovación en Recuperación de Datos al Integrar Entidades de Wikipedia

Investigadores de la Universidad de Ámsterdam, la Universidad de Edimburgo y la Universidad de Glasgow han desarrollado DyVo, un modelo innovador que mejora la exactitud de los modelos de Recuperación Rala Aprendida (LSR). Este nuevo enfoque aborda uno de los desafíos significativos que enfrentan estos modelos: la fragmentación de entidades en piezas de palabras sin sentido que disminuyen la precisión de la recuperación y restringen la capacidad del modelo para incorporar conocimientos actualizados del mundo real.

El modelo DyVo utiliza un enfoque de Vocabulario Dinámico que incrementa el vocabulario de LSR al incluir conceptos y entidades de Wikipedia. Al añadir estos elementos al vocabulario, se facilita una mejor desambiguación de términos y se proporciona al sistema información más relevante y actualizada que la disponible en los datos de entrenamiento originales. Para esto, DyVo combina términos heredados con vocabularios de entidades dentro de un índice invertido, permitiendo una recuperación rápida y precisa.

En las pruebas realizadas sobre tres conjuntos de datos ricos en entidades, el modelo DyVo mostró un desempeño superior a los métodos de referencia más avanzados, consolidándose como una herramienta eficaz para la recuperación documental. Este éxito se atribuye a la implementación de un componente de recuperación de entidades que valora de manera excelsa entidades relevantes, mejorando así la eficacia de la representación del modelo sin necesidad de realizar una preentrenamiento exhaustivo de lenguaje adicional.

La investigación, liderada por Thong Nguyen y su equipo, también detalla cómo se logró una mejora en la eficacia mediante el uso de codificadores de entidades basados en transformadores que convierten descripciones de entidades en incrustaciones. Además, al alinear el conocimiento interno del modelo con información mundial en evolución, el uso de Wikipedia como base de conocimiento permite que el modelo ajuste sus representaciones a medida que los datos cambian.

Con el respaldo de herramientas como Mixtral o GPT4 para la generación de candidatos de entidad altamente relevantes, el modelo DyVo representa una evolución significativa en la implementación de LSR, mostrando cómo la mezcla de representaciones de palabras y entidades puede potenciar la recuperación eficaz incluso en consultas complejas que abordan entidades específicas o relacionadas estrechamente.