Tema: Benchmarking

2024

mHumanEval: El Puente Hacia la Generación de Código Multilingüe

oct. 22

Un nuevo estándar que amplía el espectro de lenguajes en la programación con inteligencia artificial.

2024

Revolución en la Evaluación de Modelos de Recompensa con PPE

oct. 22

La Universidad de California desarrolla una nueva herramienta para evaluar y mejorar modelos de lenguaje en bases a preferencias humanas reales.