Solo noticias

y ya

lunes 14 de de 2024

La vinculación de Wikimedia y AI: una colaboración en evolución

La utilización de datos de Wikimedia, especialmente de Wikipedia, es un componente clave en el desarrollo de la Inteligencia Artificial (IA), particularmente en la enseñanza de modelos sofisticados de Procesamiento del Lenguaje Natural (PLN). A lo largo de los últimos años, la comunidad investigadora ha tomado ventaja de una serie de “volcados” de datos proporcionados por Wikimedia, que constituyen aproximadamente el esqueleto textual que necesitan los modelos para aprender y crecer.

Uno de los ejemplos más notables de esta colaboración es el modelo BERT, conocido por ser un gran avance en el campo de los modelos de lenguaje. A pesar de que se originó en 2018, sigue utilizando datos de la Wikipedia como su principal fuente de información, ya que proporciona tanto cantidad como calidad lingüística. Sin embargo, se han identificado oportunidades para sacar aún más provecho a estos ricos datos, tales como la extensión del espectro de datos de Wikimedia utilizados en la investigación de IA, de manera que incluyan más contenido visual y auditivo. Asimismo, se subraya la necesidad de ajustar las evaluaciones de los modelos de lenguaje para que respondan mejor a las necesidades de los editores de Wikimedia.

A pesar del papel esencial que desempeñan las contribuciones de Wikipedia en el desarrollo de la IA, históricamente ha habido una falta de representación de las necesidades de los editores de Wikimedia en los procesos de evaluación de modelos a gran escala. El foco ha estado más en la comprensión y generación de datos que en adaptar dichos modelos para asistir más directamente a los editores, quienes, de manera continua, enfrentan el reto de garantizar la calidad y fiabilidad del contenido.

Buscando abordar estas preocupaciones, diversos talleres y foros de discusión han reunido a la comunidad del modelado lingüístico con la de Wikimedia, promoviendo la creación de modelos que no solo optimicen la extracción y aprendizaje de contenidos, sino que también respeten y respondan mejor a las políticas de edición. Se busca así un punto medio donde el progreso en inteligencia artificial beneficie tanto a investigadores líderes como a las comunidades editoras cuyo trabajo representa un eje central en la misión de Wikimedia.

Al concluir este recorrido, es evidente que el incremento del uso de datos de Wikimedia puede aportar beneficios adicionales si se conduce con un enfoque bien centrado en las necesidades de los editores, enriqueciendo tanto la calidad del contenido generado de manera automatizada como las herramientas disponibles para facilitar y proteger el dinámico y complejo ecosistema de edición de Wikimedia. La apuesta en multilingüismo y en modelos compactos y de fuente abierta parece ser la dirección adecuada para armonizar avances tecnológicos con integridad colaborativa.