En un entorno donde los sistemas de navegación vehicular demandan tanto eficiencia como justicia, un conjunto de cuatro investigadores del Instituto de Tecnología de Massachusetts ha puesto a prueba un innovador enfoque que incorpora la equidad en el aprendizaje de refuerzo multiagente (MARL, por sus siglas en inglés). Este estudio busca encontrar el equilibrio óptimo entre maximizar la eficiencia y garantizar una distribución justa de las tareas entre agentes.
El fenómeno de los sistemas multiagente encuentra aplicaciones en campos tan variados como la respuesta a desastres, el monitoreo ambiental y las operaciones de vehículos de transporte. Sin embargo, uno de los desafíos recurrentes es que la búsqueda de la máxima eficiencia puede sacrificar la equidad. Para abordar este desafío, el equipo de investigación ha propuesto un método que utiliza MARL para analizar si los agentes pueden aprender a ser justos sin comprometer gravemente su eficiencia operativa.
Para lograr una navegación justa para grupos de agentes descentralizados, el equipo aplica un modelo que considera el recíproco del coeficiente de variación de las distancias recorridas por los agentes, como medida de equidad. La investigación destaca que, al entrenar estos agentes utilizando una asignación de metas basada en distancias justas y un término de recompensa que incentiva la equidad, los agentes no solo logran una distribución equitativa de tareas, sino también una cobertura de metas casi perfecta en entornos con obstáculos estáticos y dinámicos, a partir únicamente de observaciones locales.
Los resultados son ejemplares: el modelo propuesto mejora la eficiencia en un 14% en promedio y la equidad en un 5% en comparación con un modelo base entrenado con asignaciones aleatorias. Además, en comparación con modelos entrenados en las asignaciones optimamente eficientes, se logra un incremento del 21% en equidad a costa de sólo un 7% de eficiencia perdida.
El sistema, que inicialmente se probó en entornos de navegación de 2D con obstáculos estáticos y dinámicos, fue extendido para incluir tareas de cobertura en formaciones prescritas. Esto demostró que es posible lograrlo sin adaptar los modelos a formas de formación específicas, enfatizando su capacidad para adaptarse a diversas configuraciones.
Al comparar con otros modelos, como el Fair-Efficient Network, que también busca equilibrar eficiencia y equidad, el modelo propuesto supera significativamente en la mayoría de métricas de éxito y equidad, asegurando una distribución más equilibrada de las cargas y un mejor aprovechamiento general del entorno operativo.
A pesar de estos logros, la investigación reconoce que incrementar la equidad frecuentemente se traduce en un leve sacrificio de eficiencia, especialmente en entornos más poblados. Sin embargo, esta pérdida es considerada mínima y se espera que futuras investigaciones mejoren aún más este balance. La promesa de estos hallazgos sugiere nuevas direcciones de estudio, incluyendo la consideración de otras métricas de equidad y una posible extensión hacia formaciones dinámicas más realistas.