Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning

2509.20338v1 eess.SY, cs.AI, cs.MA, cs.SY, math.DS 2025-09-26

Авторы:

Umer Siddique, Abhinav Sinha, Yongcan Cao

Резюме на русском

#### Контекст Многоагентные системы решают задачи, где несколько агентов должны одновременно решать задачи, взаимодействуя друг с другом. Несмотря на успех многоагентного машинного обучения (MARL) в таких приложениях, существуют проблемы, связанные с высокой стоимостью вычислений и передачи данных. Эти ограничения ограничивают масштабируемость и эффективность таких систем. Многие существующие методы разделяют оптимизацию контрольных политик и механизмов коммуникации, что приводит к неэффективности в использовании ресурсов. #### Метод Мы предлагаем Event-Triggered Multi-Agent Policy Gradient (ET-MAPG), рамформу, где обучение контрольных политик и механизмов коммуникации объединяется в единое решение. Уровень коммуникации становится частью обучения, то есть, агенты не только выбирают действия, но и решают, когда и с кем делиться информацией. В АET-MAPG, мы добавляем самоп paттерны, используя самоаттенцию. Таким образом, агенты могут выбирать, когда и с кем обмениваться информацией. Метод может быть интегрирован с любыми методами политики по градиенту в MARL. #### Результаты Мы проводили эксперименты на нескольких многоагентных бенчмарках. Наши методы ET-MAPG и AET-MAPG показали схожую эффективность с лучшими методами временной схемы выполнения, но с значительной экономией ресурсов. Таким образом, мы показали, что модели могут оптимизировать контрольные политики и механизмы коммуникации, уменьшая затраты вычислений и обмена данными. #### Значимость Наши результаты показывают, что ET-MAPG и AET-MAPG могут применяться в многоагентных системах, таких как системы для управления трафиком, робототехники и системы мониторинга. Эти методы позволяют уменьшить вычислительные затраты и объем передаваемых данных, что делает их эффективными для реализации в реальных системах. #### Выводы Мы предложили ET-MAPG и AET-MAPG для улучшения многоагентных методов подхода градиентного политики. Наши решения позволяют сочетать политику контроля и коммуникации, уменьшая накладные расходы. Будущие исследования будут сфокусированы на расширении данных методов для более сложных задач и приложений.

Abstract

Conventional multi-agent reinforcement learning (MARL) methods rely on time-triggered execution, where agents sample and communicate actions at fixed intervals. This approach is often computationally expensive and communication-intensive. To address this limitation, we propose ET-MAPG (Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a framework that jointly learns an agent's control policy and its event-triggering policy. Unlike prior work that decouples these mechanisms, ET-MAPG integrates them into a unified learning process, enabling agents to learn not only what action to take but also when to execute it. For scenarios with inter-agent communication, we introduce AET-MAPG, an attention-based variant that leverages a self-attention mechanism to learn selective communication patterns. AET-MAPG empowers agents to determine not only when to trigger an action but also with whom to communicate and what information to exchange, thereby optimizing coordination. Both methods can be integrated with any policy gradient MARL algorithm. Extensive experiments across diverse MARL benchmarks demonstrate that our approaches achieve performance comparable to state-of-the-art, time-triggered baselines while significantly reducing both computational load and communication overhead.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация