Strategic Coordination for Evolving Multi-agent Systems: A Hierarchical Reinforcement and Collective Learning Approach
2509.18088v1
cs.MA, cs.LG
2025-09-24
Авторы:
Chuhao Qin, Evangelos Pournaras
Резюме на русском
#### Контекст
В условиях развития цифровых экономик и технологий управления, таких как смарт-города и смарт-умные дома, растет необходимость в системах управления, которые могут адаптироваться к непредсказуемым изменениям, поддерживать эффективность и сохранять автономию отдельных агентов. Децентрализованная комбинаторная оптимизация в эволюционных многоагентных системах представляет собой высокомасштабируемую задачу, требующую баланса между долгосрочным стратегическим планированием и краткосрочными оптимизациями. Однако существующие решения, такие как распределенные алгоритмы или централизованные машинное обучение, имеют подходящие требования к сложности вычислений, обмену данными и защите конфиденциальности. Этот доклад фокусируется на создании инновационного подхода, который объединяет многоагентное ренфорсментное обучение (MARL) и децентрализованное самоорганизующееся обучение для решения этих проблем.
#### Метод
Разработанная методология, **Hierarchical Reinforcement and Collective Learning (HRCL)**, сочетает многоагентное ренфорсментное обучение (MARL) с децентрализованным самоорганизующимся обучением в рамках гибридного фреймворка. В верхнем уровне MARL-агенты строят высокоуровневые стратегии, группируя возможные планы действий в иерархическом пространстве, чтобы сократить активность в размерности и ограничить поведение агентов в рамках принципа Парето-оптимальности. В нижнем уровне децентрализованная самоорганизующаяся система обучения обеспечивает эффективное, минимально коммуникативное согласование между агентами. Этот дизайн позволяет решать комбинаторные задачи оптимизации с минимальным расходом ресурсов и максимальной адаптивностью к изменениям в среде.
#### Результаты
Исследования проводились на двух типах сценариев: 1) синтетическом конфигурации системы, 2) реальному моделированию умного города. В первом случае проверялись эффективность, скорость и стабильность алгоритма на масштабируемых сетях, во втором — реалистичность и применимость к реальным проблемам, в том числе в сфере управления энергией и дроновых силовых шунтов. Результаты показали, что HRCL превосходит стандартные методы MARL и децентрализованного обучения по критериям производительности, эффективности ресурсов и устойчивости к изменениям.
#### Значимость
Прототип HRCL может применяться в различных областях, например, в сетевом управлении, смарт-городах, военных системах и других ситуациях, где необходима эффективная децентрализованная система управления. Он обеспечивает высокую скорость реакции
Abstract
Decentralized combinatorial optimization in evolving multi-agent systems
poses significant challenges, requiring agents to balance long-term
decision-making, short-term optimized collective outcomes, while preserving
autonomy of interactive agents under unanticipated changes. Reinforcement
learning offers a way to model sequential decision-making through dynamic
programming to anticipate future environmental changes. However, applying
multi-agent reinforcement learning (MARL) to decentralized combinatorial
optimization problems remains an open challenge due to the exponential growth
of the joint state-action space, high communication overhead, and privacy
concerns in centralized training. To address these limitations, this paper
proposes Hierarchical Reinforcement and Collective Learning (HRCL), a novel
approach that leverages both MARL and decentralized collective learning based
on a hierarchical framework. Agents take high-level strategies using MARL to
group possible plans for action space reduction and constrain the agent
behavior for Pareto optimality. Meanwhile, the low-level collective learning
layer ensures efficient and decentralized coordinated decisions among agents
with minimal communication. Extensive experiments in a synthetic scenario and
real-world smart city application models, including energy self-management and
drone swarm sensing, demonstrate that HRCL significantly improves performance,
scalability, and adaptability compared to the standalone MARL and collective
learning approaches, achieving a win-win synthesis solution.
Ссылки и действия
Дополнительные ресурсы: