VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos

En un intento por evaluar la capacidad de los grandes modelos de lenguaje visual (VLMs) para tomar decisiones informadas por valores humanos en situaciones reales, un destacado estudio ha introducido un nuevo punto de referencia denominado VIVA (Vision-Grounded Decision-Making with Human Values).

Desarrollado con la colaboración del Departamento de Computación de la Universidad Politécnica de Hong Kong y el Departamento de Ciencia de los Datos Computacionales de la Universidad Case Western Reserve, VIVA representa un nuevo enfoque para dotar a las inteligencias artificiales de capacidades multimodales que integren valores humanos al tomar decisiones.

El estudio advierte que, a pesar de los avances significativos, los VLMs actuales aún tienen limitaciones para usar valores humanos en la toma de decisiones multimodales. Estos modelos pueden elegir acertadamente acciones, pero muchas veces carecen de razones alineadas con valores humanos, lo que puede resultar en comportamientos poco fiables en el mundo real.

VIVA, como pionero en su tipo, presenta un conjunto de datos compuesto por 1,240 imágenes que reflejan situaciones de la vida real y contienen decisiones anotadas manualmente. Estas imágenes fueron seleccionadas para evaluar cómo los modelos abordan situaciones representadas visualmente y seleccionan la acción más apropiada basándose en valores humanos.

Los experimentos extensivos concluyeron que, si bien los VLMs demuestran inteligencia notable, enfrentan desafíos cuando deben integrar valores humanos para coexistir y colaborar con agentes de IA. Casos como la visualización de una persona luchando en el agua requieren que el VLM interprete el riesgo potencial y actúe en consecuencia, priorizando principios como el deber de ayuda y la promoción de la seguridad personal.

Finalmente, el estudio sugiere que incorporar la predicción de consecuencias de las acciones mejora la selección apropiada, subrayando la importancia de brindar a las máquinas un entendimiento más profundo de las consecuencias de sus decisiones.

Solo noticias

y ya

VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos