La capacidad de los Modelos de Lenguaje Extenso (LLMs, por sus siglas en inglés) para atender problemas matemáticos sigue siendo objeto de debate. Recientes investigaciones realizadas por un equipo de la Universidad Nacional de Tecnología de Defensa de China han desafiado la creencia popular de que estos modelos poseen un razonamiento lógico al nivel del sistema cognitivo humano denominado Sistema 2. Aunque los LLMs muestran destrezas impresionantes al completar tareas matemáticas, un estudio empírico arroja que su precisión decae significativamente cuando se les presentan problemas con leves modificaciones numéricas.
El equipo de investigación examinó las capacidades matemáticas de varios LLMs, incluyendo modelos líderes como GPT-4 y ChatGPT 3.5, usando un test de reflexión cognitiva (CRT). Las modificaciones incluían cambiar números en problemas sin alterar los principios detrás de estos y transformar problemas de crecimiento exponencial en problemas de crecimiento lineal. Los resultados demostraron que, a pesar de la implementación de métodos que buscan imitar el razonamiento humano, como la técnica de Cadena de Pensamientos (CoT), los modelos continuaron mostrando altas tasas de error.
Los modelos mayormente recurren al razonamiento intuitivo (Sistema 1) empapado de similitudes observadas en sus datos de entrenamiento en vez de aplicar lógica matemática genuina. Por ejemplo, cuando se modificaron números dentro de un problema sin afectar el razonamiento lógico del problema mismo, la precisión de los modelos cayó de un 86.8% en problemas originales a un promedio de 12.53% en problemas modificados.
El estudio también introdujo problemas donde el principio matemático se alteró manteniendo similar su formulación. En estas situaciones, los LLMs fallaron masivamente en aplicar nuevos métodos de resolución, continuando con estrategias inadecuadas. Aunque estos modelos fueron capaces de recordar y replicar problemas previamente vistos, su competencia no abarcó más allá de una repetición compleja.