Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation

2508.14705v1 cs.GT, cs.AI 2025-08-22

Авторы:

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

Резюме на русском

#### Контекст В области исследований взаимодействия двух субъектов — лидера и фолловера — в повторяющихся играх с несколькими целями (Stackelberg games) возникает задача оптимального управления поведением фолловера. Эта задача становится особенно актуальной при необходимости информационного обогащения лидера о предпочтениях фолловера, которые могут варьироваться в процессе взаимодействия. Этот динамический подход к управлению взаимодействием может применяться в различных сферах, таких как экономика, правоохранительные органы, системы управления транспортом и даже в социальных сетях. В статье рассматривается задача, в которой лидер может стратегически воздействовать на поведение фолловера, обращая его внимание на лидерские цели, в то же время не имея полной информации о предпочтениях фолловера. #### Метод Для решения этой задачи предлагается модель, основанная на понятии потенциального управления (manipulation policies), которое позволяет лидерам максимизировать свои цели при учете неизвестных предпочтений фолловера. Метод основывается на двух основных принципах: ожидаемом пользе (Expected Utility, EU) и долгосрочном ожидаемом пользе (Long-term Expected Utility, longEU). Эти понятия применяются для определения политик, при которых лидер выбирает действия, которые во взаимодействии с фолловером приводят к максимальной пользе в будущем. Теоретический аппарат статьи включает условия, при которых долгосрочная манипуляция поведения фолловера будет приводить к оптимальному результату. #### Результаты На бенчмарк-средах проводились эмпирические эксперименты, которые подтвердили значительную выгоду от применения предложенных политик. Лидерские политики, основанные на longEU, позволяют лидерам не только максимизировать свою пользу в течение повторяющихся игр, но и оптимизировать долгосрочные результаты взаимодействия. Эти результаты показывают, что модель позволяет улучшить среднюю пользу лидера и создать более выгодные для всех участников результаты, без необходимости иметь предварительный доступ к информации о предпочтениях фолловера. #### Значимость Предлагаемый подход имеет широкие применения в различных сферах, где взаимодействие между агентами является ключевым элементом. В частности, он может быть использован в экономике для моделирования взаимодействия между производителями и потребителями, в системах управления транспортом для оптимизации динамического взаимодействия между движущимися автомобилями, и даже в социальных сетях для управления поведением пользователей. Основное преимущество этого метода заключается в том, что он не требует исходной информации о предпочтениях фо

Abstract

We study payoff manipulation in repeated multi-objective Stackelberg games, where a leader may strategically influence a follower's deterministic best response, e.g., by offering a share of their own payoff. We assume that the follower's utility function, representing preferences over multiple objectives, is unknown but linear, and its weight parameter must be inferred through interaction. This introduces a sequential decision-making challenge for the leader, who must balance preference elicitation with immediate utility maximisation. We formalise this problem and propose manipulation policies based on expected utility (EU) and long-term expected utility (longEU), which guide the leader in selecting actions and offering incentives that trade off short-term gains with long-term impact. We prove that under infinite repeated interactions, longEU converges to the optimal manipulation. Empirical results across benchmark environments demonstrate that our approach improves cumulative leader utility while promoting mutually beneficial outcomes, all without requiring explicit negotiation or prior knowledge of the follower's utility function.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Sponsored Questions and How to Auction Them

Fairness in the Multi-Secretary Problem

Perturbing Best Responses in Zero-Sum Games

Optimal Welfare in Noncooperative Network Formation under Attack

Reliable and Private Utility Signaling for Data Markets

Навигация