Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning
2509.20338v1
eess.SY, cs.AI, cs.MA, cs.SY, math.DS
2025-09-26
Авторы:
Umer Siddique, Abhinav Sinha, Yongcan Cao
Резюме на русском
#### Контекст
Многоагентные системы решают задачи, где несколько агентов должны одновременно решать задачи, взаимодействуя друг с другом. Несмотря на успех многоагентного машинного обучения (MARL) в таких приложениях, существуют проблемы, связанные с высокой стоимостью вычислений и передачи данных. Эти ограничения ограничивают масштабируемость и эффективность таких систем. Многие существующие методы разделяют оптимизацию контрольных политик и механизмов коммуникации, что приводит к неэффективности в использовании ресурсов.
#### Метод
Мы предлагаем Event-Triggered Multi-Agent Policy Gradient (ET-MAPG), рамформу, где обучение контрольных политик и механизмов коммуникации объединяется в единое решение. Уровень коммуникации становится частью обучения, то есть, агенты не только выбирают действия, но и решают, когда и с кем делиться информацией. В АET-MAPG, мы добавляем самоп paттерны, используя самоаттенцию. Таким образом, агенты могут выбирать, когда и с кем обмениваться информацией. Метод может быть интегрирован с любыми методами политики по градиенту в MARL.
#### Результаты
Мы проводили эксперименты на нескольких многоагентных бенчмарках. Наши методы ET-MAPG и AET-MAPG показали схожую эффективность с лучшими методами временной схемы выполнения, но с значительной экономией ресурсов. Таким образом, мы показали, что модели могут оптимизировать контрольные политики и механизмы коммуникации, уменьшая затраты вычислений и обмена данными.
#### Значимость
Наши результаты показывают, что ET-MAPG и AET-MAPG могут применяться в многоагентных системах, таких как системы для управления трафиком, робототехники и системы мониторинга. Эти методы позволяют уменьшить вычислительные затраты и объем передаваемых данных, что делает их эффективными для реализации в реальных системах.
#### Выводы
Мы предложили ET-MAPG и AET-MAPG для улучшения многоагентных методов подхода градиентного политики. Наши решения позволяют сочетать политику контроля и коммуникации, уменьшая накладные расходы. Будущие исследования будут сфокусированы на расширении данных методов для более сложных задач и приложений.
Abstract
Conventional multi-agent reinforcement learning (MARL) methods rely on
time-triggered execution, where agents sample and communicate actions at fixed
intervals. This approach is often computationally expensive and
communication-intensive. To address this limitation, we propose ET-MAPG
(Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a
framework that jointly learns an agent's control policy and its
event-triggering policy. Unlike prior work that decouples these mechanisms,
ET-MAPG integrates them into a unified learning process, enabling agents to
learn not only what action to take but also when to execute it. For scenarios
with inter-agent communication, we introduce AET-MAPG, an attention-based
variant that leverages a self-attention mechanism to learn selective
communication patterns. AET-MAPG empowers agents to determine not only when to
trigger an action but also with whom to communicate and what information to
exchange, thereby optimizing coordination. Both methods can be integrated with
any policy gradient MARL algorithm. Extensive experiments across diverse MARL
benchmarks demonstrate that our approaches achieve performance comparable to
state-of-the-art, time-triggered baselines while significantly reducing both
computational load and communication overhead.