Emergence of Fair Leaders via Mediators in Multi-Agent Reinforcement Learning

2508.02421v1 cs.MA, cs.AI, cs.LG 2025-08-09
Авторы:

Akshay Dodwadmath, Setareh Maghsudi

Резюме на русском

Задача установления справедливых лидеров в средах с множеством агентов, активно обсуждается в мультиагентном расширенном рейнфорсментном обучении (MARL). Традиционные Stackelberg-игры предполагают, что каждый этап игры заключается в действиях лидера, после чего следуют реакции слейвов. Однако выбор лидера может привести к несправедливости в ситуациях, где роль лидера и слейва меняется. Авторы показали, что установление лидера исходя из автоматического выделения лидера может привести к несправедливости в результатах. Для решения этой проблемы предложено интегрировать медиаторов (mediators) в среду мультиагентного лидер-слейв-мультиагентного расширенного рейнфорсментного обучения. Медиаторы могут управлять процессом действий лидеров в лидер-слейв-ситуации, где лидер выбирается на основе максимального уровня справедливости. Это решение позволяет максимизировать справедливость вознаграждений всех агентов, что приводит к справедливым результатам в целом.

Abstract

Stackelberg games and their resulting equilibria have received increasing attention in the multi-agent reinforcement learning literature. Each stage of a traditional Stackelberg game involves a leader(s) acting first, followed by the followers. In situations where the roles of leader(s) and followers can be interchanged, the designated role can have considerable advantages, for example, in first-mover advantage settings. Then the question arises: Who should be the leader and when? A bias in the leader selection process can lead to unfair outcomes. This problem is aggravated if the agents are self-interested and care only about their goals and rewards. We formally define this leader selection problem and show its relation to fairness in agents' returns. Furthermore, we propose a multi-agent reinforcement learning framework that maximizes fairness by integrating mediators. Mediators have previously been used in the simultaneous action setting with varying levels of control, such as directly performing agents' actions or just recommending them. Our framework integrates mediators in the Stackelberg setting with minimal control (leader selection). We show that the presence of mediators leads to self-interested agents taking fair actions, resulting in higher overall fairness in agents' returns.

Ссылки и действия