Consistent Opponent Modeling of Static Opponents in Imperfect-Information Games

2508.17671v2 cs.GT, cs.AI, cs.MA, econ.TH 2025-08-27
Авторы:

Sam Ganzfried

Резюме на русском

## Контекст В многоагентных средах, где агенты стремятся максимизировать свою награду, игра стратегических агентов часто определяется игровыми теоретическими понятиями, такими как Нашее эквибриум. Однако эти подходы нередко не учитывают исторические данные и наблюдаемые данные от противников во время повторных взаимодействий. Наблюдения за противником могут предоставить ценную информацию для улучшения стратегии. Однако в играх с неполной информацией, где информация о действиях противника не всегда видна, эффективность таких подходов ограничена. Это снижает потенциал игровых агентов в условиях неопределенности, например, в покере. Мы исследуем проблему того, как создавать модели противников, которые бы не только учитывали исторические данные, но и стабильно приближались к истинной стратегии противника в течение продолжительного времени. ## Метод Мы предлагаем алгоритм ориентированный на моделирование противников, гарантирующий точное настройку на истинную стратегию противника в игре с неполной информацией. Наш подход основывается на последовательности-форме игрового представления, которое позволяет представить игру в виде многоугольника. Мы используем оптимизационный метод градиентного спуска с проекцией, чтобы минимизировать разницу между стратегией модели и истинной стратегией противника. Ключевым элементом является то, что наш метод гарантирует сходимость к точной стратегии противника с увеличением количества игровых итераций, даже в случае нестабильных противников. ## Результаты Мы проводим эксперименты на наборе задач, включающих игры с неполной информацией, такие как покер. Для этого мы используем набор данных, содержащий наблюдения за игровыми действиями противников в течение многих игровых сессий. Наши результаты показывают, что наш алгоритм эффективно приближается к истинной стратегии противника, даже если противник нестабилен. Мы также проверяем нашу модель на задачах, где противник отличается от предыдущих сессий, и показываем, что алгоритм успешно адаптируется. ## Значимость Наш подход может быть применен в различных многоагентных системах, где агенты должны реагировать на противников, основываясь на исторических данных. Например, он может быть использован в игровых системах, интеллектуальных ассистентах, системах управления трафиком или даже в системах безопасности. Наш подход обеспечивает более высокую точность и стабильность в моделировании противников, что может повысить эффективность таких систем. Это также открывает новые возможности для улучшения интеллектуальных систем в различных

Abstract

The goal of agents in multi-agent environments is to maximize total reward against the opposing agents that are encountered. Following a game-theoretic solution concept, such as Nash equilibrium, may obtain a strong performance in some settings; however, such approaches fail to capitalize on historical and observed data from repeated interactions against our opponents. Opponent modeling algorithms integrate machine learning techniques to exploit suboptimal opponents utilizing available data; however, the effectiveness of such approaches in imperfect-information games to date is quite limited. We show that existing opponent modeling approaches fail to satisfy a simple desirable property even against static opponents drawn from a known prior distribution; namely, they do not guarantee that the model approaches the opponent's true strategy even in the limit as the number of game iterations approaches infinity. We develop a new algorithm that is able to achieve this property and runs efficiently by solving a convex minimization problem based on the sequence-form game representation using projected gradient descent. The algorithm is guaranteed to efficiently converge to the opponent's true strategy given observations from gameplay and possibly additional historical data if it is available.

Ссылки и действия

Связанные статьи

Not in My Backyard! Temporal Voting Over Public Chores

#### Контекст Многие общественные проекты, такие как строительство дорог или сбор мусора, носят общеблагоприятный харак...

2025-08-14