Tema: Benchmarking
2024
mHumanEval: El Puente Hacia la Generación de Código Multilingüe
Un nuevo estándar que amplía el espectro de lenguajes en la programación con inteligencia artificial.
2024
Revolución en la Evaluación de Modelos de Recompensa con PPE
La Universidad de California desarrolla una nueva herramienta para evaluar y mejorar modelos de lenguaje en bases a preferencias humanas reales.