Un equipo de investigadores de la Universidad de California en San Francisco, Microsoft Research y la Universidad Nacional de Singapur ha desarrollado un innovador modelo llamado BC-LLM basado en modelos de Bayesian Concept Bottleneck (CBM). Este modelo promete mejorar la interpretación de modelos de predicción al tiempo que mantiene el nivel de precisión. La novedad radica en el uso de Modelos de Lenguaje Grande (LLM) dentro de un marco bayesiano para la extracción de conceptos.
Tradicionalmente, los CBMs han enfrentado desafíos debido a la necesidad de contar con expertos humanos para identificar y anotar un amplio conjunto de conceptos, lo que resulta ser costoso e impráctico. Además, al tratar de alcanzar una predicción transparente, a menudo se enfrentan a dificultades en la enumeración de un conjunto suficientemente grande de conceptos. Sin embargo, el enfoque BC-LLM optimiza esta tarea al usar LLMs como herramienta de extracción de conceptos.
BC-LLM combina tanto datos de texto como tabulares, resultando ser multimodal. A pesar de las imperfecciones naturales de los LLMs, el estudio demuestra que el BC-LLM es capaz de ofrecer inferencias estadísticas rigurosas y cuantificación eficaz de la incertidumbre.
Los experimentos muestran que BC-LLM supera a los métodos comparativos, incluidos los modelos de caja negra, y converge más rápidamente hacia conceptos relevantes. Además, se destaca por su robustez frente a muestras fuera de distribución y mejora la coordinación sobre conceptos correlacionados pero espurios.
Un ejemplo práctico de la aplicación de BC-LLM se refiere a la predicción de readmisión hospitalaria a partir de notas de pacientes. Sin la necesidad de especificar previamente todos los conceptos posibles relacionados, el modelo logra identificar rápidamente conceptos relevantes y ocultar correlaciones falsas.
Con la ayuda de LLMs, aunque sigue existiendo un costo de consulta, se facilita la anotación de conceptos gracias al conocimiento mundial de estos modelos. En última instancia, BC-LLM ha ayudado a que los modelos sean más interpretables y accionables, fundamentalmente en equipos de ciencia de datos clínicos en hospitales reales.
En conclusión, el trabajo concluye que envolver LLMs en un marco bayesiano ayuda a iterar sobre conceptos de manera estadísticamente fundamentada y salva muchos de los obstáculos anteriormente enfrentados al querer integrar interpretabilidad en los modelos predictivos eficientes.