Tema: Aprendizaje De Preferencias
2024
Desvelan riesgos en la optimización de preferencias para modelos de lenguaje
El fenómeno de desplazamiento de probabilidad podría desalinear intenciones originales frente a las respuestas preferidas.
2024
Revelan Vulnerabilidades en Modelos de Lenguaje por Envenenamiento de Datos
Estudio introduce POISON BENCH para evaluar la susceptibilidad de modelos de lenguaje ante manipulaciones maliciosas.