En un innovador desarrollo en el campo de la inteligencia artificial, investigadores de la Universidad Estatal de Arizona han presentado P OLY MATH, un nuevo estándar destinado a evaluar las capacidades cognitivas de razonamiento de los modelos de lenguaje grande multimodal (MLLMs). Este avance se basa en la necesidad de mejorar las habilidades de comprensión visual y razonamiento abstracto de estos modelos, que hasta ahora habían quedado insuficientemente evaluadas.
El estándar, bautizado como P OLY MATH, incluye un conjunto de 5,000 imágenes de alta calidad, manualmente recolectadas, que capturan desafíos textuales y visuales cognitivos en 10 categorías distintas. Estos rangos comprenden desde el reconocimiento de patrones hasta el razonamiento espacial, y han sido diseñados para probar las capacidades de lógica y comprensión de modelos avanzados como Claude-3.5 Sonnet y GPT-4o, entre otros.
Un detalle inquietante revelado por el análisis de errores es que los modelos actuales todavía luchan por entender las relaciones espaciales y realizar razonamientos abstractos complejos. Por ejemplo, estos modelos presentan una mejora del ∼ 4% cuando se les proporcionan descripciones textuales en lugar de los diagramas, lo que indica que aún no comprenden completamente la información visual.
Las evaluaciones iniciales han demostrado que, entre los modelos cerrados evaluados, Claude-3.5 Sonnet logró la mejor puntuación con un 41.90%, mientras que los modelos de código abierto, como LLaVA-v1.6 Mistral y ShareGPT4V, mostraron desempeños modestos del 15.20% y 12.80%, respectivamente. Para contrarrestar este desafío, se realizaron experimentos adicionales en un subconjunto del estándar que contenía problemas solo visuales, donde se observó una caída significativa en el rendimiento de los modelos, reafirmando las dificultades en el razonamiento visual.
A pesar de sus logros en tareas complejas, los MLLMs aún muestran deficiencias en tareas que requieren razonamiento cognitivo y lógico, tales como problemas científicos y rompecabezas abstractos. Esta situación subraya el potencial y la necesidad de mejorar las capacidades de razonamiento multimodal en los modelos futuros.
La creación y evaluación de este nuevo estándar P OLY MATH no solo subraya la necesidad de mejorar en el campo de la inteligencia artificial multimodal, sino que también ofrece perspectivas únicas para guiar el desarrollo de futuros modelos que buscan imitar las capacidades cognitivas humanas de manera más integral.