📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Umer Siddique, Abhinav Sinha, Yongcan Cao
#### Контекст
Многоагентные системы решают задачи, где несколько агентов должны одновременно решать задачи, взаимодействуя друг с другом. Несмотря на успех многоагентного машинного обучения (MARL) в таких приложениях, существуют проблемы, связанные с высокой стоимостью вычислений и передачи данных. Эти ограничения ограничивают масштабируемость и эффективность таких систем. Многие существующие методы разделяют оптимизацию контрольных политик и механизмов коммуникации, что приводит к неэффективности в использовании ресурсов.
#### Метод
Мы предлагаем Event-Triggered Multi-Agent Policy Gradient (ET-MAPG), рамформу, где обучение контрольных политик и механизмов коммуникации объединяется в единое решение. Уровень коммуникации становится частью обучения, то есть, агенты не только выбирают действия, но и решают, когда и с кем делиться информацией. В АET-MAPG, мы добавляем самоп paттерны, используя самоаттенцию. Таким образом, агенты могут выбирать, когда и с кем обмениваться информацией. Метод может быть интегрирован с любыми методами политики по градиенту в MARL.
#### Результаты
Мы проводили эксперименты на нескольких многоагентных бенчмарках. Наши методы ET-MAPG и AET-MAPG показали схожую эффективность с лучшими методами временной схемы выполнения, но с значительной экономией ресурсов. Таким образом, мы показали, что модели могут оптимизировать контрольные политики и механизмы коммуникации, уменьшая затраты вычислений и обмена данными.
#### Значимость
Наши результаты показывают, что ET-MAPG и AET-MAPG могут применяться в многоагентных системах, таких как системы для управления трафиком, робототехники и системы мониторинга. Эти методы позволяют уменьшить вычислительные затраты и объем передаваемых данных, что делает их эффективными для реализации в реальных системах.
#### Выводы
Мы предложили ET-MAPG и AET-MAPG для улучшения многоагентных методов подхода градиентного политики. Наши решения позволяют сочетать политику контроля и коммуникации, уменьшая накладные расходы. Будущие исследования будут сфокусированы на расширении данных методов для более сложных задач и приложений.
Annotation:
Conventional multi-agent reinforcement learning (MARL) methods rely on
time-triggered execution, where agents sample and communicate actions at fixed
intervals. This approach is often computationally expensive and
communication-intensive. To address this limitation, we propose ET-MAPG
(Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a
framework that jointly learns an agent's control policy and its
event-triggering policy. Unlike prior work that decouples these mechanisms,
ET...