Emergence of Fair Leaders via Mediators in Multi-Agent Reinforcement Learning
2508.02421v1
cs.MA, cs.AI, cs.LG
2025-08-09
Авторы:
Akshay Dodwadmath, Setareh Maghsudi
Резюме на русском
Задача установления справедливых лидеров в средах с множеством агентов, активно обсуждается в мультиагентном расширенном рейнфорсментном обучении (MARL). Традиционные Stackelberg-игры предполагают, что каждый этап игры заключается в действиях лидера, после чего следуют реакции слейвов. Однако выбор лидера может привести к несправедливости в ситуациях, где роль лидера и слейва меняется. Авторы показали, что установление лидера исходя из автоматического выделения лидера может привести к несправедливости в результатах. Для решения этой проблемы предложено интегрировать медиаторов (mediators) в среду мультиагентного лидер-слейв-мультиагентного расширенного рейнфорсментного обучения. Медиаторы могут управлять процессом действий лидеров в лидер-слейв-ситуации, где лидер выбирается на основе максимального уровня справедливости. Это решение позволяет максимизировать справедливость вознаграждений всех агентов, что приводит к справедливым результатам в целом.
Abstract
Stackelberg games and their resulting equilibria have received increasing
attention in the multi-agent reinforcement learning literature. Each stage of a
traditional Stackelberg game involves a leader(s) acting first, followed by the
followers. In situations where the roles of leader(s) and followers can be
interchanged, the designated role can have considerable advantages, for
example, in first-mover advantage settings. Then the question arises: Who
should be the leader and when? A bias in the leader selection process can lead
to unfair outcomes. This problem is aggravated if the agents are
self-interested and care only about their goals and rewards. We formally define
this leader selection problem and show its relation to fairness in agents'
returns. Furthermore, we propose a multi-agent reinforcement learning framework
that maximizes fairness by integrating mediators. Mediators have previously
been used in the simultaneous action setting with varying levels of control,
such as directly performing agents' actions or just recommending them. Our
framework integrates mediators in the Stackelberg setting with minimal control
(leader selection). We show that the presence of mediators leads to
self-interested agents taking fair actions, resulting in higher overall
fairness in agents' returns.
Ссылки и действия
Дополнительные ресурсы: