El universo de los Modelos de Lenguaje de Tamaño Grande (LLMs, por sus siglas en inglés) está exhibiendo características inesperadas. Investigadores de Francia han decidido estudiar un fenómeno peculiar: las “alucinaciones” que estos modelos presentan en las salidas de sus respuestas, analizadas en términos de estructuras gráficas conocidas. Esta iniciativa no solo aborda la exactitud factual alcanzada por estos modelos, sino que proporciona una perspectiva visual más compleja a través de la generación de gráficos incorrectos al solicitarles bien conocidos diagramas como el del club de karate de Zachary o el gráfico de “Los Miserables”.
Un estudio exhaustivo ha analizado los modelos como ChatGPT y llama-3, entre otros, solicitándoles representar gráficamente una serie de estructuras estandarizadas. Ninguno fue capaz de replicar de manera exacta las estructuras, revelando que, independientemente de la sofisticación del modelo, las alucinaciones ocurren. Por ejemplo, al solicitar el gráfico del club de karate de Zachary, ningún modelo entregó un resultado completamente correcto. El modelo dbrx-instruct obtuvo el gráfico más cercano al real, aunque añadió dos bordes no deseados.
La investigación incorpora además una métrica innovadora denominada “distancia del atlas de gráficos” (Graph Atlas Distance), que permite clasificar estos modelos según la magnitud de sus alucinaciones. Los resultados indican que, pese a la simpleza de las solicitudes (cinco gráficos de prueba), la clasificación obtenida se correlaciona con métodos que requieren miles de consultas complejas.
El enfoque pretende ofrecer un método más eficiente para evaluar la precisión estructural de los LLMs al comparar los gráficos generados por estos modelos con las versiones de referencia conocidas. Los gráficos estructurados revelan diferencias significativas entre los modelos. Por ejemplo, llama-3-70B-instruct-groq genera un gráfico con el doble de bordes que el gráfico original, destacando una errada percepción sobre la cantidad de conexiones que debe tener cada nodo.
Desde una perspectiva práctica, estos hallazgos sugieren que los actuales LLMs tienen margen de mejora respecto a la representación precisa de estructuras fácticas. Al observar tan diversas interpretaciones ante un mismo gráfico, se abren nuevas oportunidades para ajustar y perfeccionar estos sistemas aún en desarrollo. Las diferencias en la precisión espectral y las distancias de edición de gráficos ofrecen indicios de cómo afrontar estos problemas. Tal como está avanzando la tecnología, es casi seguro que estas investigaciones contribuyan significativamente a la superación de barreras en la veracidad de los datos que manejan estos modelos.