Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong han lanzado un nuevo benchmark llamado StatQA, diseñado para evaluar la capacidad de los Modelos de Lenguaje a Gran Escala (LLMs) en realizar análisis estadísticos complejos. StatQA se compone de 11,623 ejemplos enfocados en tareas estadísticas especializadas como pruebas de hipótesis. A pesar de los notables avances de modelos como GPT-4, éstos logran una precisión máxima del 64.83%, mostrando márgenes significativos para mejora.
Se realizaron experimentos con diferentes LLMs utilizando estrategias de “prompting” variadas y se observó que, aunque los modelos de código abierto como LLaMA-3 muestran capacidades limitadas, aquellos ajustados optimizan su rendimiento, superando métodos basados en aprendizaje en contexto. Un estudio comparativo reveló diferencias en los tipos de errores cometidos por LLMs y humanos, destacando los errores de aplicabilidad entre los LLMs y de confusión en tareas estadísticas entre humanos.
La investigación sugiere que combinar la experiencia humana con la potencia de los LLMs podría ofrecer beneficios complementarios significativos. Los resultados indican que en las tareas de análisis estadístico, las máquinas podrían beneficiarse de una colaboración más estrecha con expertos humanos para mejorar su rendimiento y fiabilidad.
Este estudio proporciona un impulso para futuras investigaciones sobre el potencial colaborativo entre inteligencia humana e IA, y plantea oportunidades para expandir benchmarks como StatQA a otros dominios especializados donde los ejemplos son escasos.