SPORTU, un innovador punto de referencia, ha emergido como un ingenioso compendio para la comprensión y el razonamiento deportivo por parte de Modelos de Lenguaje de Gran Escala Multimodal (MLLM, por sus siglas en inglés). Diseñado para evaluar las capacidades de estos modelos, SPORTU desafía la habilidad para comprender reglas y aplicar estrategias de diversos deportes a través de un enfoque de preguntas y respuestas tanto en texto como en video, permitiendo una comprensión integral del ámbito deportivo.
En la sección textualmente enfocada del benchmark, 900 preguntas de opción múltiple se presentan con explicaciones detalladas, lo que resulta un campo fértil para medir la comprensión de la estrategia y de las reglas del deporte sin la ayuda de insumos visuales. Este componente no solamente prueba la capacidad de razonamiento a partir de textos sino que también impulsa los límites de la comprensión lingüística a través del razonamiento en cadena.
Las pruebas del SPORTU-video elevan la vara con sus 1,701 videoclips a cámara lenta que abarcan siete deportes diferentes, con 12,048 pares de pregunta-respuesta que varían en dificultad. Desde la simple identificación del deporte hasta complejas tareas como la detección de faltas e interpretación de reglas durante un partido, esta sección evalúa la competencia en la percepción del movimiento y en la comprensión contextual de acciones.
En los experimentos, cuatro modelos líderes de MLLMs fueron analizados, revelando que mientras el GPT-4o mostró aciertos superiores con un 71% de precisión en tareas textuales, Claude-3.5-Sonnet lideró en el ámbito de video con un 69.52% de precisión, especialmente enfatizando la infraestructura para la mejora continua en el nivel de razonamiento profundo.
El camino hacia una comprensión del deporte de alto nivel por parte de los modelos aún tiene áreas inexploradas. La introducción de SPORTU representa un paso fundamental no solo para innovar en el campo de la inteligencia artificial aplicada al deporte, sino también en la calidad de la investigación interdisciplinaria que conecta el procesamiento natural del lenguaje y la visión computacional con aplicaciones concretas en el mundo deportivo.