Omni-MATH desafía a los modelos de lenguaje con problemas matemáticos a nivel olímpico

**Investigando el límite de los modelos lingüísticos grandes en razonamiento matemático, un equipo de investigadores de la Universidad de Pekín y diversas instituciones ha presentado un nuevo benchmark matemático a nivel olímpico llamado Omni-MATH. Este conjunto de pruebas ha sido diseñado específicamente para evaluar la capacidad de razonamiento matemático de los modelos lingüísticos grandes (LLMs, por sus siglas en inglés). A través de una colección exhaustiva de 4,428 problemas a nivel de competición con rigurosas anotaciones humanas, el benchmark examina a los modelos LLM en 33 subdominios y más de 10 niveles de dificultad.

Solo noticias

y ya

Omni-MATH desafía a los modelos de lenguaje con problemas matemáticos a nivel olímpico