Investigadores de diversas universidades han estado explorando la capacidad de los modeladores de lenguaje grande (LLM) para formular preguntas a partir de respuestas, lo que se conoce como respuesta inversa a una pregunta (RQA). Este tipo de tareas se ha combinado con las preguntas-respuesta normales para examinar la precisión de los LLM en ambos sentidos: deduciendo respuestas a partir de preguntas y generando preguntas que tengan como respuesta una predeterminada.
Durante las pruebas con 16 modelos LLM, se encontró que los modelos son mucho menos precisos en RQA orientado a respuestas numéricas, mientras que tienen un rendimiento ligeramente superior en respuestas textuales. Este hallazgo subraya una debilidad en la habilidad abductiva de los modelos para generar preguntas válidas.
Las pruebas incluyeron 3443 pares de preguntas y respuestas organizados en categorías: numérico, numérico+texto, entidad fácil y entidad difícil. Los resultados indican que para las respuestas numéricas, los LLM tienden a ser menos precisos en la generación de preguntas respecto a su habilidad para responderlas.
Adicionalmente, los errores en RQA parecen estar correlacionados con la complejidad de la pregunta y aparecen de forma inversamente proporcional a la frecuencia con la que la respuesta se encuentra en el corpus de pre-entrenamiento de los LLM. Asimismo, los LLM mostraron dificultades para generar preguntas válidas de múltiples pasos, sugiriendo una necesidad de refinar las estrategias de ajuste de preferencias para mitigar el sesgo a favor de complejidades en los datos de entrenamiento.
El estudio también revela que muchos errores en RQA no deben atribuirse solo a lagunas en el conocimiento, ya que los modelos pueden con frecuencia proporcionar respuestas correctas para sus propias preguntas inválidas. Este hecho sugiere la adopción de estrategias de auto-verificación para mejorar la fiabilidad en la creación de preguntas numéricas.
La investigación aporta valiosas conclusiones sobre las capacidades lógicas de los LLM y sugiere posibles mejoras en la calibración y el diseño de pruebas para evaluar de forma holística la capacidad de razonamiento abductivo y deductivo de los modelos. Una propuesta clave es la de ajustar los modelos según la dificultad esperada para evitar errores en preguntas extremadamente complejas.
En conclusión, explotar ambas tareas, RQA y QA, de manera conjunta permite comprender mejor el comportamiento de los modelos ante desafíos lógicos y recomendar prácticas óptimas para el despliegue de estas tecnologías en aplicaciones del mundo real.