📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Core in Max-Loss Non-Centroid Clustering Can Be Empty

2025-11-26

Авторы:

Robert Bredereck, Eva Deltl, Leon Kellerhals, Jannik Peters

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study core stability in non-centroid clustering under the max-loss objective, where each agent's loss is the maximum distance to other members of their cluster. We prove that for all $k\geq 3$ there exist metric instances with $n\ge 9$ agents, with $n$ divisible by $k$, for which no clustering lies in the $α$-core for any $α<2^{\frac{1}{5}}\sim 1.148$. The bound is tight for our construction. Using a computer-aided proof, we also identify a two-dimensional Euclidean point set whose associated...

ID: 2511.19107v1 cs.LG, cs.AI, cs.GT, stat.ML

arXiv PDF

📄 Robust Deep Monte Carlo Counterfactual Regret Minimization: Addressing Theoretical Risks in Neural Fictitious Self-Play

2025-09-05

Авторы:

Zakaria El Jaafari

## Контекст Monte Carlo Counterfactual Regret Minimization (MCCFR) является революционным алгоритмом для решения игр расширенной формы, но его интеграция с нейронными сетями сталкивается с рядом теоретических и практических рисков. Эти проблемы возникают различно в зависимости от сложности игры. Особенно выдающиеся препятствия включают нестационарные сдвиги целевой дистрибуции, коллапс поддержки действий, взрыв дисперсии и проблемы с начальной настройкой. Эти риски требуют индивидуального подхода в зависимости от размера игры. Данная работа проводит подробную аналитическую работу по идентификации этих рисков и предлагает методику их устранения в рамках нейронных MCCFR-фреймворков. ## Метод Методология основывается на создании адаптивного фреймворка, который учитывает специфику разных размеров игр. Основные компоненты включают целевые сети с задержкой обновлений, смешивание эксплорирования, объективные функции с учетом дисперсии и мониторинг. Архитектура строится на базе Robust Deep MCCFR, который включает в себя все эти компоненты и позволяет применять их в зависимости от размера игры. Абляционные эксперименты проводятся на играх Kuhn Poker и Leduc Poker, чтобы классифицировать эффективность каждого компонента и выяснить критические взаимодействия. ## Результаты На Kuhn Poker, где используется функциональный подход, Robust Deep MCCFR показывает снижение эксплойтируемости до 0.0628, что является 60% лучше классического подхода (0.156). На Leduc Poker, более сложной игре, селективный подход позволяет получить эксплойтируемость 0.2386, что составляет 23.5% лучше классического подхода (0.3703). Эти результаты подтверждают не только эффективность компонентов, но и важность осторожного выбора и их интеграции в зависимости от размера игры. ## Значимость Работа предлагает практическое решение для устранения теоретических рисков в нейронных MCCFR, что может быть применено в различных областях, включая игровые алгоритмы, стратегическое моделирование и логическое программирование. Она предоставляет конкретные рекомендации и примеры для более эффективного использования алгоритмов в более сложных играх, что может принести пользу в исследованиях и реализациях различных моделей. ## Выводы Работа привносит несколько ключевых достижений: (1) формальный анализ рисков в нейронных MCCFR, (2) новую методику с приоритетом использования компонентов в зависимости от размера игры, (3) многомерные эксперименты, подтверждающие эффективность предложенных методов, и (4) практические рекомендации для применения в более крупных играх. Будущие исс

Annotation:

Monte Carlo Counterfactual Regret Minimization (MCCFR) has emerged as a cornerstone algorithm for solving extensive-form games, but its integration with deep neural networks introduces scale-dependent challenges that manifest differently across game complexities. This paper presents a comprehensive analysis of how neural MCCFR component effectiveness varies with game scale and proposes an adaptive framework for selective component deployment. We identify that theoretical risks such as nonstation...

ID: 2509.00923v1 cs.AI, cs.GT, stat.ML

arXiv PDF