Investigadores de Algoverse AI Research, mediante un estudio titulado ‘Fine-Tuning Language Models for Ethical Ambiguity’, han evaluado cómo los modelos de lenguaje (LLMs) responden ante situaciones moralmente ambiguas en comparación con las respuestas humanas. El estudio reveló la significativa diferencia en el alineamiento de juicios, indicando que los modelos todavía enfrentan desafíos para interpretar correctamente intenciones humanas en contextos que no son claros moralmente.
El análisis se fundamentó en dos conjuntos de datos, DILEMMAS y ANECDOTES, del proyecto Scruples. DILEMMAS presenta escenarios morales duales para evaluar la capacidad de los modelos en comparar y contrastar situaciones éticas y ANECDOTES proporciona narrativas individuales para analizar el juicio moral en detalle. Los datos señalaron que los modelos, tras el ajuste fino, mostraron mejoras sobre todo en puntuaciones de Dirichlet, sugiriendo mejoras en el alineamiento respecto a las perspectivas humanas. Sin embargo, modelos como BERT y RoBERTa aún exhibieron un rendimiento superior en ciertas métricas.
Cuatro modelos de LLM fueron evaluados: Llama-3.1-8b, Zephyr-7b-beta, Mistral-7b y GPT4o. Destacó el hecho de que Mistral-7B-Instruct-v0.3, tras un ajuste fino, destacara a la par que GPT-4o, pero aún así quedó superado por otros en términos de puntuaciones de entropía cruzada. El estudio reflejó que el ajuste de fine-tuning mejoró alinear la comprensión de los modelos respecto a juicios humanos en contextos de toma de decisiones complejas. Por otro lado, los modelos experimentales desarrollados se quedaron cortos frente a BERT y RoBERTa en ciertas métricas de puntuación cruzada.
Los experimentos se llevaron a cabo utilizando pérdidas de entropía cruzada y pérdidas Dirichlet para medir el alineamiento entre predicciones del modelo y los juicios humanos. Los modelos Mistral y Zephyr exhibieron una mejora significativa en estas métricas después del ajuste fino, sobre todo en el dataset ANECDOTES, pero la dificultad persistía en situaciones anecdóticas donde la variabilidad y la complejidad narrativa planteaban retos mayores.
El estudio resalta que aunque el ajuste fino genera progresos notables en ciertos contextos, persisten problemas de calibración. Una comprensión más eficiente y técnicas avanzadas de fine-tuning son fundamentales para abordar la manera en que los modelos capturan el juicio humano en situaciones moralmente complejas.