## Контекст
Autonomous exploration в области multi-agent reinforcement learning (MARL) с sparse rewards является ключевым заданием, требующим эффективной intrinsic motivation для успешного выполнения задач. Несмотря на развитие artificial curiosity, оно часто путает environmental stochasticity с meaningful novelty, а существующие curiosity mechanisms применяют uniform novelty bias, обрабатывая все unexpected observations одинаково. В decentralized, communication-free MARL settings это приводит к suboptimal exploration. Вдохновлены значимым подходом, когда human children adaptive регулируют свои exploratory behaviors при наблюдении за peers, предлагается новый framework CERMIC. Он позволяет agents стабильно фильтровать noisy surprise signals и гибко calibrate intrinsic curiosity с помощью многоагентского context. Благодаря этому, agents могут выделять state transitions с высоким information gain.
## Метод
CERMIC предлагает principled framework для calibration multi-agent exploration. Основное отличие заключается в использовании inferred multi-agent context для dynamic adjustment intrinsic curiosity. Для этого используется метод, который моделирует latent task dynamics на основе peer behavior. Это позволяет agents не только обнаруживать unexpected observations, но и понимать их relevance в контексте global task objectives. Для того, чтобы обеспечить robust filtering noisy signals, CERMIC вводит theoretically-grounded intrinsic reward, который выделяет state transitions с высоким information gain.
## Результаты
Используя benchmark suites, включающие VMAS, Meltingpot и SMACv2, были проведены эксперименты для оценки CERMIC. Результаты показывают, что exploration с использованием CERMIC существенно outperforms SoTA algorithms в sparse-reward environments. Например, в Meltingpot, CERMIC показал значительное увеличение reward даже с ограниченным количеством communication. В SMACv2, он достиг high win rate в задачах с sparse rewards, где другие algorithms сталкивались с difficulties.
## Значимость
CERMIC может применяться в различных областях, где autonomous exploration играет ключевую роль. Он позволяет обеспечивать эффективную exploration в decentralized, communication-free MARL settings, что является критически важной проблемой в современных tasks. Работа также демонстрирует преимущества в adaptive calibration curiosity signals, что может быть использовано в other multi-agent и single-agent systems. Из-за гибкости и robustness, CERMIC может иметь потенциал для application в domains, таких как robotics, game AI и autonomous systems.
## Выводы
CERMIC представляет собой новый, effective approach для enhancing multi-agent exploration в sparse-reward environments. Он обеспечивает adaptive calibration intrinsic curiosity и может быть решением для challenges в decentralized MARL settings. Основные достижения включают значительное улучшение performance в benchmark suites. Будущие исследования будут направлены на расширение CERMIC для более complex environments и исследование его potential в other multi-agent и single-agent systems.