Consensus-based Decentralized Multi-agent Reinforcement Learning for Random Access Network Optimization
2508.07001v1
cs.NI, cs.AI, cs.LG
2025-08-13
Авторы:
Myeung Suk Oh, Zhiyao Zhang, FNU Hairi, Alvaro Velasquez, Jia Liu
Резюме на русском
## Контекст
В современном мире, где беспроводные устройства взаимодействуют в узкозапростоватых сетях, становится важной задачей оптимизация сетевого доступа, чтобы обеспечить постоянное подключение и высокую скорость передачи данных. Одной из ключевых стратегий является рандомный доступ (RA), который предназначен для обеспечения эффективной обработки непредсказуемого трафика с различных устройств. Однако существуют значительные затруднения в разработке эффективных протоколов для управления доступом к сети, так как необходимо сбалансировать минимизацию коллизий и обеспечение справедливости в передаче данных. Ранее были предложены многоагентные методы глубокого обучения (MARL) с централизованным обучением и децентрализованной исполнением (CTDE) для решения этой задачи. Однако эти методы требуют значительного объема информационных данных для обучения, что может оказаться неэффективным в реальных сетях. Наша мотивация заключается в разработке децентрализованного метода, который уменьшает нагрузку на сеть, но при этом обеспечивает эффективность в управлении доступом к сети.
## Метод
Мы предлагаем децентрализованную машинное обучение с несколькими агентами (MARL), где каждое устройство в сети является отдельным агентом, который работает независимо и предпринимает решения на основе локальной информации. Наша методология основывается на архитектуре актера-критика (AC), где каждый агент обучается своим поведению в индивидуальном порядке. Чтобы уменьшить объем передаваемых данных, мы предлагаем обмен только локальными наградами между устройствами. Это позволяет уменьшить количество информации, необходимого для синхронизации сети. Мы также привносим теоретическую базу для доказательства глобального сходимости нашей модели, которая гарантирует высокую производительность в рандомном доступе.
## Результаты
Мы провели эксперименты на моделировании сетевого доступа с рандомным доступом, используя разные базы данных и настройки. Наши результаты показывают, что наш метод по сравнению с базовыми моделями с централизованным обучением дает значительное повышение эффективности в плане коллизий и справедливости в передаче. Мы также проверили нашу модель в разных сетевых условиях, включая сети с высоким трафиком и многочисленными устройствами. Результаты показали, что наша децентрализованная модель демонстрирует повышенную скорость реакции и стабильность в сравнении с другими алгоритмами.
## Значимость
Наш алгоритм может быть применен в различных областях, где необходимо эффективное управление доступом к сети, например, в коммуникационных сетях
Abstract
With wireless devices increasingly forming a unified smart network for
seamless, user-friendly operations, random access (RA) medium access control
(MAC) design is considered a key solution for handling unpredictable data
traffic from multiple terminals. However, it remains challenging to design an
effective RA-based MAC protocol to minimize collisions and ensure transmission
fairness across the devices. While existing multi-agent reinforcement learning
(MARL) approaches with centralized training and decentralized execution (CTDE)
have been proposed to optimize RA performance, their reliance on centralized
training and the significant overhead required for information collection can
make real-world applications unrealistic. In this work, we adopt a fully
decentralized MARL architecture, where policy learning does not rely on
centralized tasks but leverages consensus-based information exchanges across
devices. We design our MARL algorithm over an actor-critic (AC) network and
propose exchanging only local rewards to minimize communication overhead.
Furthermore, we provide a theoretical proof of global convergence for our
approach. Numerical experiments show that our proposed MARL algorithm can
significantly improve RA network performance compared to other baselines.
Ссылки и действия
Дополнительные ресурсы: