Evaluación de Modelos Generativos en Decisiones Judiciales: ¿Cómo se Comparan con los Humanos?

En un estudio exhaustivo llevado a cabo por investigadores de la Universidad de Cornell y otras instituciones, se examinó cómo los grandes modelos generativos (LMs) se comparan con los humanos y modelos predictivos de IA en tareas decisivas de alto riesgo, como la predicción de la reincidencia delictiva utilizando un dataset del modelo predictivo COMPAS. COMPAS es un modelo utilizado frecuentemente en el sistema de justicia penal de los Estados Unidos para calcular el riesgo de reincidencia.

Para el estudio, se integraron tres datasets: puntuaciones de riesgo predictivo COMPAS, juicios de reincidencia hechos por humanos, y fotografías hipotéticas, con el objetivo de explorar las características de varios modelos de lenguaje multimodal de última generación.

En comparación con anteriores investigaciones que se enfocaron primordialmente en la precisión y sesgos de COMPAS, este trabajo puso un énfasis especial en estudiar la alineación entre humanos y LMs en la predicción de la reincidencia. Los investigadores exploraron si estos modelos pueden ser dirigidos hacia decisiones humanas, el impacto de incluir fotografías, y si las técnicas de incitación antidiscriminación son efectivas.

El estudio reveló que los LMs pueden ser guiados para superar tanto a los humanos como a COMPAS utilizando un aprendizaje en contexto. Sin embargo, cuando se probó con incitaciones antidiscriminación, se observaron efectos no intencionados como la inhibición de algunos modelos y una significativa reducción en su número de predicciones positivas.

Tras la combinación de decisiones humanas y de COMPAS, se encontró que los LMs eran capaces de superar individualmente a humanos o a COMPAS en términos de predicción de reincidencia. Sin embargo, no se detectó una clara ventaja en términos de alineación con los humanos o COMPAS, ya que los LMs mostraron una tendencia a alinearse más con las decisiones de los humanos que con las del algoritmo COMPAS.

Por otro lado, se estudió la influencia del uso de fotos y cómo éstas afectaban la alineación y precisión, lo cual llevó a conclusiones similares a las observadas en trabajos anteriores sobre cómo la presentación racial impacta los juicios humanos de reincidencia.

El análisis llevado a cabo en este estudio es crucial en un tiempo donde las decisiones asistidas por IA en contextos de alto riesgo están en una trayectoria de crecimiento, ofreciendo una visión más detallada de cómo los modelos generativos pueden ser utilizados con precisión y justicia si se implementan adecuadamente. Sin embargo, los investigadores destacan la necesidad de continuar investigando cómo asegurar que la implementación de estas tecnologías dentro del sistema judicial no perpetúe ni exacerbe los sesgos inherentes que ya se encuentran presentes en la sociedad.

Solo noticias

y ya

Evaluación de Modelos Generativos en Decisiones Judiciales: ¿Cómo se Comparan con los Humanos?