Tema: Aprendizaje De Preferencias

2024

Desvelan riesgos en la optimización de preferencias para modelos de lenguaje

oct. 14

El fenómeno de desplazamiento de probabilidad podría desalinear intenciones originales frente a las respuestas preferidas.

2024

Revelan Vulnerabilidades en Modelos de Lenguaje por Envenenamiento de Datos

oct. 14

Estudio introduce POISON BENCH para evaluar la susceptibilidad de modelos de lenguaje ante manipulaciones maliciosas.