Wonder Wins Ways: Curiosity-Driven Exploration through Multi-Agent Contextual Calibration
2509.20648v1
cs.LG, cs.RO
2025-09-27
Авторы:
Yiyuan Pan, Zhe Liu, Hesheng Wang
Резюме на русском
## Контекст
Autonomous exploration в области multi-agent reinforcement learning (MARL) с sparse rewards является ключевым заданием, требующим эффективной intrinsic motivation для успешного выполнения задач. Несмотря на развитие artificial curiosity, оно часто путает environmental stochasticity с meaningful novelty, а существующие curiosity mechanisms применяют uniform novelty bias, обрабатывая все unexpected observations одинаково. В decentralized, communication-free MARL settings это приводит к suboptimal exploration. Вдохновлены значимым подходом, когда human children adaptive регулируют свои exploratory behaviors при наблюдении за peers, предлагается новый framework CERMIC. Он позволяет agents стабильно фильтровать noisy surprise signals и гибко calibrate intrinsic curiosity с помощью многоагентского context. Благодаря этому, agents могут выделять state transitions с высоким information gain.
## Метод
CERMIC предлагает principled framework для calibration multi-agent exploration. Основное отличие заключается в использовании inferred multi-agent context для dynamic adjustment intrinsic curiosity. Для этого используется метод, который моделирует latent task dynamics на основе peer behavior. Это позволяет agents не только обнаруживать unexpected observations, но и понимать их relevance в контексте global task objectives. Для того, чтобы обеспечить robust filtering noisy signals, CERMIC вводит theoretically-grounded intrinsic reward, который выделяет state transitions с высоким information gain.
## Результаты
Используя benchmark suites, включающие VMAS, Meltingpot и SMACv2, были проведены эксперименты для оценки CERMIC. Результаты показывают, что exploration с использованием CERMIC существенно outperforms SoTA algorithms в sparse-reward environments. Например, в Meltingpot, CERMIC показал значительное увеличение reward даже с ограниченным количеством communication. В SMACv2, он достиг high win rate в задачах с sparse rewards, где другие algorithms сталкивались с difficulties.
## Значимость
CERMIC может применяться в различных областях, где autonomous exploration играет ключевую роль. Он позволяет обеспечивать эффективную exploration в decentralized, communication-free MARL settings, что является критически важной проблемой в современных tasks. Работа также демонстрирует преимущества в adaptive calibration curiosity signals, что может быть использовано в other multi-agent и single-agent systems. Из-за гибкости и robustness, CERMIC может иметь потенциал для application в domains, таких как robotics, game AI и autonomous systems.
## Выводы
CERMIC представляет собой новый, effective approach для enhancing multi-agent exploration в sparse-reward environments. Он обеспечивает adaptive calibration intrinsic curiosity и может быть решением для challenges в decentralized MARL settings. Основные достижения включают значительное улучшение performance в benchmark suites. Будущие исследования будут направлены на расширение CERMIC для более complex environments и исследование его potential в other multi-agent и single-agent systems.
Abstract
Autonomous exploration in complex multi-agent reinforcement learning (MARL)
with sparse rewards critically depends on providing agents with effective
intrinsic motivation. While artificial curiosity offers a powerful
self-supervised signal, it often confuses environmental stochasticity with
meaningful novelty. Moreover, existing curiosity mechanisms exhibit a uniform
novelty bias, treating all unexpected observations equally. However, peer
behavior novelty, which encode latent task dynamics, are often overlooked,
resulting in suboptimal exploration in decentralized, communication-free MARL
settings. To this end, inspired by how human children adaptively calibrate
their own exploratory behaviors via observing peers, we propose a novel
approach to enhance multi-agent exploration. We introduce CERMIC, a principled
framework that empowers agents to robustly filter noisy surprise signals and
guide exploration by dynamically calibrating their intrinsic curiosity with
inferred multi-agent context. Additionally, CERMIC generates
theoretically-grounded intrinsic rewards, encouraging agents to explore state
transitions with high information gain. We evaluate CERMIC on benchmark suites
including VMAS, Meltingpot, and SMACv2. Empirical results demonstrate that
exploration with CERMIC significantly outperforms SoTA algorithms in
sparse-reward environments.
Ссылки и действия
Дополнительные ресурсы: