Robust Deep Monte Carlo Counterfactual Regret Minimization: Addressing Theoretical Risks in Neural Fictitious Self-Play

2509.00923v1 cs.AI, cs.GT, stat.ML 2025-09-05
Авторы:

Zakaria El Jaafari

Резюме на русском

## Контекст Monte Carlo Counterfactual Regret Minimization (MCCFR) является революционным алгоритмом для решения игр расширенной формы, но его интеграция с нейронными сетями сталкивается с рядом теоретических и практических рисков. Эти проблемы возникают различно в зависимости от сложности игры. Особенно выдающиеся препятствия включают нестационарные сдвиги целевой дистрибуции, коллапс поддержки действий, взрыв дисперсии и проблемы с начальной настройкой. Эти риски требуют индивидуального подхода в зависимости от размера игры. Данная работа проводит подробную аналитическую работу по идентификации этих рисков и предлагает методику их устранения в рамках нейронных MCCFR-фреймворков. ## Метод Методология основывается на создании адаптивного фреймворка, который учитывает специфику разных размеров игр. Основные компоненты включают целевые сети с задержкой обновлений, смешивание эксплорирования, объективные функции с учетом дисперсии и мониторинг. Архитектура строится на базе Robust Deep MCCFR, который включает в себя все эти компоненты и позволяет применять их в зависимости от размера игры. Абляционные эксперименты проводятся на играх Kuhn Poker и Leduc Poker, чтобы классифицировать эффективность каждого компонента и выяснить критические взаимодействия. ## Результаты На Kuhn Poker, где используется функциональный подход, Robust Deep MCCFR показывает снижение эксплойтируемости до 0.0628, что является 60% лучше классического подхода (0.156). На Leduc Poker, более сложной игре, селективный подход позволяет получить эксплойтируемость 0.2386, что составляет 23.5% лучше классического подхода (0.3703). Эти результаты подтверждают не только эффективность компонентов, но и важность осторожного выбора и их интеграции в зависимости от размера игры. ## Значимость Работа предлагает практическое решение для устранения теоретических рисков в нейронных MCCFR, что может быть применено в различных областях, включая игровые алгоритмы, стратегическое моделирование и логическое программирование. Она предоставляет конкретные рекомендации и примеры для более эффективного использования алгоритмов в более сложных играх, что может принести пользу в исследованиях и реализациях различных моделей. ## Выводы Работа привносит несколько ключевых достижений: (1) формальный анализ рисков в нейронных MCCFR, (2) новую методику с приоритетом использования компонентов в зависимости от размера игры, (3) многомерные эксперименты, подтверждающие эффективность предложенных методов, и (4) практические рекомендации для применения в более крупных играх. Будущие исс

Abstract

Monte Carlo Counterfactual Regret Minimization (MCCFR) has emerged as a cornerstone algorithm for solving extensive-form games, but its integration with deep neural networks introduces scale-dependent challenges that manifest differently across game complexities. This paper presents a comprehensive analysis of how neural MCCFR component effectiveness varies with game scale and proposes an adaptive framework for selective component deployment. We identify that theoretical risks such as nonstationary target distribution shifts, action support collapse, variance explosion, and warm-starting bias have scale-dependent manifestation patterns, requiring different mitigation strategies for small versus large games. Our proposed Robust Deep MCCFR framework incorporates target networks with delayed updates, uniform exploration mixing, variance-aware training objectives, and comprehensive diagnostic monitoring. Through systematic ablation studies on Kuhn and Leduc Poker, we demonstrate scale-dependent component effectiveness and identify critical component interactions. The best configuration achieves final exploitability of 0.0628 on Kuhn Poker, representing a 60% improvement over the classical framework (0.156). On the more complex Leduc Poker domain, selective component usage achieves exploitability of 0.2386, a 23.5% improvement over the classical framework (0.3703) and highlighting the importance of careful component selection over comprehensive mitigation. Our contributions include: (1) a formal theoretical analysis of risks in neural MCCFR, (2) a principled mitigation framework with convergence guarantees, (3) comprehensive multi-scale experimental validation revealing scale-dependent component interactions, and (4) practical guidelines for deployment in larger games.

Ссылки и действия