Los Modelos de Lenguaje de Gran Tamaño (LLM por sus siglas en inglés) han demostrado habilidades excepcionales para generar código a partir de descripciones en lenguaje natural. Sin embargo, la evaluación objetiva de estas capacidades sigue siendo un desafío por resolver. Un grupo de investigadores ha puesto a prueba un modelo de última generación, el GPT4-o-mini, llevándolo a enfrentar desafíos programáticos extraídos de Codewars en ocho lenguajes de programación distintos.
Los resultados destacaron que el éxito del modelo está positivamente correlacionado con la dificultad de las tareas, la popularidad del lenguaje de programación usado y el tiempo transcurrido desde que el desafío fue publicado. Al realizar un análisis más detallado con características de alto nivel, se encontró que el 46.6% del rendimiento del modelo podría atribuirse a la dificultad de la tarea, mientras que el 37.4% parece estar relacionado con la filtración de soluciones a los conjuntos de datos de entrenamiento del modelo, y el restante 16% depende del lenguaje de programación.
El estudio también subraya que las metodologías de evaluación actuales podrían estar sobrestimando las capacidades reales de los modelos para generar código funcional. De hecho, la fuga de datos de conjuntos de evaluaciones a través de repositorios públicos y la existencia de más soluciones para tareas más fáciles podrían estar influyendo en los resultados atribuibles a la memorística del modelo.
En última instancia, este trabajo pone de manifiesto la necesidad de refinar los métodos de evaluación utilizados, sugiriendo que un enfoque más justo sería evaluar a los nuevos modelos sobre conjuntos de datos publicados estrictamente después de la fecha de corte de entrenamiento. Ya que los modelos se benefician de enormes datasets, la necesidad de datos frescos en las evaluaciones se vuelve necesaria para garantizar resultados más veraces en cuanto a sus habilidades generadoras de código.
En conclusión, a medida que los modelos de lenguaje siguen evolucionando y mejorando, sigue siendo crucial realizar evaluaciones objetivas y justas que reflejen su verdadero rendimiento y capacidad de generalización, especialmente en tareas que requieren un alto grado de precisión como es la generación de código. Sin estas medidas, corremos el riesgo de sobrevalorar sus capacidades, lo que podría tener implicaciones significativas para su uso en el mundo real.