Strategic Coordination for Evolving Multi-agent Systems: A Hierarchical Reinforcement and Collective Learning Approach

2509.18088v1 cs.MA, cs.LG 2025-09-24
Авторы:

Chuhao Qin, Evangelos Pournaras

Резюме на русском

#### Контекст В условиях развития цифровых экономик и технологий управления, таких как смарт-города и смарт-умные дома, растет необходимость в системах управления, которые могут адаптироваться к непредсказуемым изменениям, поддерживать эффективность и сохранять автономию отдельных агентов. Децентрализованная комбинаторная оптимизация в эволюционных многоагентных системах представляет собой высокомасштабируемую задачу, требующую баланса между долгосрочным стратегическим планированием и краткосрочными оптимизациями. Однако существующие решения, такие как распределенные алгоритмы или централизованные машинное обучение, имеют подходящие требования к сложности вычислений, обмену данными и защите конфиденциальности. Этот доклад фокусируется на создании инновационного подхода, который объединяет многоагентное ренфорсментное обучение (MARL) и децентрализованное самоорганизующееся обучение для решения этих проблем. #### Метод Разработанная методология, **Hierarchical Reinforcement and Collective Learning (HRCL)**, сочетает многоагентное ренфорсментное обучение (MARL) с децентрализованным самоорганизующимся обучением в рамках гибридного фреймворка. В верхнем уровне MARL-агенты строят высокоуровневые стратегии, группируя возможные планы действий в иерархическом пространстве, чтобы сократить активность в размерности и ограничить поведение агентов в рамках принципа Парето-оптимальности. В нижнем уровне децентрализованная самоорганизующаяся система обучения обеспечивает эффективное, минимально коммуникативное согласование между агентами. Этот дизайн позволяет решать комбинаторные задачи оптимизации с минимальным расходом ресурсов и максимальной адаптивностью к изменениям в среде. #### Результаты Исследования проводились на двух типах сценариев: 1) синтетическом конфигурации системы, 2) реальному моделированию умного города. В первом случае проверялись эффективность, скорость и стабильность алгоритма на масштабируемых сетях, во втором — реалистичность и применимость к реальным проблемам, в том числе в сфере управления энергией и дроновых силовых шунтов. Результаты показали, что HRCL превосходит стандартные методы MARL и децентрализованного обучения по критериям производительности, эффективности ресурсов и устойчивости к изменениям. #### Значимость Прототип HRCL может применяться в различных областях, например, в сетевом управлении, смарт-городах, военных системах и других ситуациях, где необходима эффективная децентрализованная система управления. Он обеспечивает высокую скорость реакции

Abstract

Decentralized combinatorial optimization in evolving multi-agent systems poses significant challenges, requiring agents to balance long-term decision-making, short-term optimized collective outcomes, while preserving autonomy of interactive agents under unanticipated changes. Reinforcement learning offers a way to model sequential decision-making through dynamic programming to anticipate future environmental changes. However, applying multi-agent reinforcement learning (MARL) to decentralized combinatorial optimization problems remains an open challenge due to the exponential growth of the joint state-action space, high communication overhead, and privacy concerns in centralized training. To address these limitations, this paper proposes Hierarchical Reinforcement and Collective Learning (HRCL), a novel approach that leverages both MARL and decentralized collective learning based on a hierarchical framework. Agents take high-level strategies using MARL to group possible plans for action space reduction and constrain the agent behavior for Pareto optimality. Meanwhile, the low-level collective learning layer ensures efficient and decentralized coordinated decisions among agents with minimal communication. Extensive experiments in a synthetic scenario and real-world smart city application models, including energy self-management and drone swarm sensing, demonstrate that HRCL significantly improves performance, scalability, and adaptability compared to the standalone MARL and collective learning approaches, achieving a win-win synthesis solution.

Ссылки и действия