Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation
2508.14705v1
cs.GT, cs.AI
2025-08-22
Авторы:
Phurinut Srisawad, Juergen Branke, Long Tran-Thanh
Резюме на русском
#### Контекст
В области исследований взаимодействия двух субъектов — лидера и фолловера — в повторяющихся играх с несколькими целями (Stackelberg games) возникает задача оптимального управления поведением фолловера. Эта задача становится особенно актуальной при необходимости информационного обогащения лидера о предпочтениях фолловера, которые могут варьироваться в процессе взаимодействия. Этот динамический подход к управлению взаимодействием может применяться в различных сферах, таких как экономика, правоохранительные органы, системы управления транспортом и даже в социальных сетях. В статье рассматривается задача, в которой лидер может стратегически воздействовать на поведение фолловера, обращая его внимание на лидерские цели, в то же время не имея полной информации о предпочтениях фолловера.
#### Метод
Для решения этой задачи предлагается модель, основанная на понятии потенциального управления (manipulation policies), которое позволяет лидерам максимизировать свои цели при учете неизвестных предпочтений фолловера. Метод основывается на двух основных принципах: ожидаемом пользе (Expected Utility, EU) и долгосрочном ожидаемом пользе (Long-term Expected Utility, longEU). Эти понятия применяются для определения политик, при которых лидер выбирает действия, которые во взаимодействии с фолловером приводят к максимальной пользе в будущем. Теоретический аппарат статьи включает условия, при которых долгосрочная манипуляция поведения фолловера будет приводить к оптимальному результату.
#### Результаты
На бенчмарк-средах проводились эмпирические эксперименты, которые подтвердили значительную выгоду от применения предложенных политик. Лидерские политики, основанные на longEU, позволяют лидерам не только максимизировать свою пользу в течение повторяющихся игр, но и оптимизировать долгосрочные результаты взаимодействия. Эти результаты показывают, что модель позволяет улучшить среднюю пользу лидера и создать более выгодные для всех участников результаты, без необходимости иметь предварительный доступ к информации о предпочтениях фолловера.
#### Значимость
Предлагаемый подход имеет широкие применения в различных сферах, где взаимодействие между агентами является ключевым элементом. В частности, он может быть использован в экономике для моделирования взаимодействия между производителями и потребителями, в системах управления транспортом для оптимизации динамического взаимодействия между движущимися автомобилями, и даже в социальных сетях для управления поведением пользователей. Основное преимущество этого метода заключается в том, что он не требует исходной информации о предпочтениях фо
Abstract
We study payoff manipulation in repeated multi-objective Stackelberg games,
where a leader may strategically influence a follower's deterministic best
response, e.g., by offering a share of their own payoff. We assume that the
follower's utility function, representing preferences over multiple objectives,
is unknown but linear, and its weight parameter must be inferred through
interaction. This introduces a sequential decision-making challenge for the
leader, who must balance preference elicitation with immediate utility
maximisation. We formalise this problem and propose manipulation policies based
on expected utility (EU) and long-term expected utility (longEU), which guide
the leader in selecting actions and offering incentives that trade off
short-term gains with long-term impact. We prove that under infinite repeated
interactions, longEU converges to the optimal manipulation. Empirical results
across benchmark environments demonstrate that our approach improves cumulative
leader utility while promoting mutually beneficial outcomes, all without
requiring explicit negotiation or prior knowledge of the follower's utility
function.
Ссылки и действия
Дополнительные ресурсы: