Bayesian Ego-graph inference for Networked Multi-Agent Reinforcement Learning
2509.16606v1
cs.MA, cs.LG
2025-09-24
Авторы:
Wei Duan, Jie Lu, Junyu Xuan
Резюме на русском
#### Контекст
Сетевая многоагентная reinforcement learning (Networked-MARL) — это область исследований, где децентрализованные агенты должны принимать решения в условиях ограниченного доступа к информации и ограниченной коммуникации. Традиционные методы часто предполагают статические топические структуры, что затрудняет применение в динамических или нетипичных средах. Централизованные подходы, в свою очередь, могут учитывать изменения топологии, но требуют доступа к глобальному состоянию и системы управления, что негативно сказывается на скорости реакции и реалистичности решений. Мы предлагаем новый подход, основанный на стохастических графах и Bayesian inference, чтобы улучшить гибкость и эффективность работы в сетевых multi-agent системах.
#### Метод
Мы предлагаем BayesG — фреймворк, основанный на Bayesian variational inference для топологического управления в Networked-MARL. Каждый агент строит свой "ego-граф", опираясь на локальное состояние и связи в его физической окрестности. Для динамического регулирования информационного потока мы вводим latent communication mask, которая управляет процессом message passing. Эта маска обучается вместе с политикой агента с помощью ELBO-объектива, что позволяет агентам не только выучить их действия, но и локальную топологию взаимодействия. Фреймворк работает в децентрализованном режиме, чтобы обеспечить надежность и масштабируемость в реальных сетевых средах.
#### Результаты
Мы проверили BayesG на задачах управления трафиком с до 167 агентов. Использовались реалистичные данные, описывающие динамику сети. Наши эксперименты показали, что BayesG превосходит существующие методы, такие как MADDPG и MAAC, по метрикам скорости реакции и эффективности решений. Особое внимание уделено гибкости модели в адаптации к изменениям в топологии сети и эффективности в условиях ограниченного обмена информацией.
#### Значимость
Наш подход имеет широкие перспективы в применении, например, в системах смарт-гридов, сетевых системах реагирования на чрезвычайные ситуации и динамичных средах с нетипичными топологиями. Он предлагает высокую масштабируемость, эффективность и устойчивость к изменениям топологии. Эти преимущества открывают возможности для реализации Networked-MARL в реальном времени, что может улучшить производительность в задачах, требующих быстрого реагирования.
#### Выводы
Мы представили BayesG — новый фреймворк для Networked-MARL, основанный на Bayesian inference и стохастических графах. Наши результаты показали превосходство BayesG над существующими методами в задачах с большим количеством агентов. Мы считаем, что этот подход может стать ключевым для развития децентрализованных с
Abstract
In networked multi-agent reinforcement learning (Networked-MARL),
decentralized agents must act under local observability and constrained
communication over fixed physical graphs. Existing methods often assume static
neighborhoods, limiting adaptability to dynamic or heterogeneous environments.
While centralized frameworks can learn dynamic graphs, their reliance on global
state access and centralized infrastructure is impractical in real-world
decentralized systems. We propose a stochastic graph-based policy for
Networked-MARL, where each agent conditions its decision on a sampled subgraph
over its local physical neighborhood. Building on this formulation, we
introduce BayesG, a decentralized actor-framework that learns sparse,
context-aware interaction structures via Bayesian variational inference. Each
agent operates over an ego-graph and samples a latent communication mask to
guide message passing and policy computation. The variational distribution is
trained end-to-end alongside the policy using an evidence lower bound (ELBO)
objective, enabling agents to jointly learn both interaction topology and
decision-making strategies. BayesG outperforms strong MARL baselines on
large-scale traffic control tasks with up to 167 agents, demonstrating superior
scalability, efficiency, and performance.
Ссылки и действия
Дополнительные ресурсы: