Multi-Agent Reinforcement Learning for Task Offloading in Wireless Edge Networks
2509.01257v1
cs.LG, cs.AI, cs.NI
2025-09-05
Авторы:
Andrea Fox, Francesco De Pellegrini, Eitan Altman
Резюме на русском
## Контекст
Edge computing системы представляют собой распределенные среды, где несколько устройств должны принимать скоростные решения в реальном времени, используя ограниченные ресурсы, такие как сетевое пространство и вычислительная мощность. Эти системы часто сталкиваются с проблемами, такими как неопределенность в сетевом трафике, конфликты за ресурсами и нехватка вычислительного времени. Одной из ключевых задач в таких системах является "offloading" — перенос задач с ограниченного устройства на более мощный сервер. Однако эффективное решение этой задачи требует координации множества агентов, чтобы избежать конфликтов и оптимизировать использование ресурсов. Существующие методы логических решений часто либо централизованны, либо требуют частого обмена информацией, что неэффективно в условиях ограниченности сетевого трафика и неопределенности.
## Метод
Мы предлагаем уникальный подход к решению данной проблемы, основанный на многоагентном управлении подкреплением (MARL). Наша модель основывается на конструкции децентрализованного фреймворка, в котором каждый агент решает собственный задачу оптимизации — строго ограниченную задачу марковского решения (CMDP). Агенты обмениваются информацией только через связь с контроллером, который обновляет ограничения в CMDP на основе глобальных целей системы. Это позволяет агентам заботиться о собственных локальных целях, не теряя глобальную координацию. Такой подход значительно сокращает объем сетевой информации, требуемую для обмена, и позволяет системе работать даже при нестабильном соединении. Мы также применяем методы безопасного многоагентного обучения для того, чтобы гарантировать, что каждый агент будет работать в пределах безопасного диапазона действий.
## Результаты
Мы проводили эксперименты в симуляторе для оценки производительности нашего метода в параллельном оффлоадинге. Мы сравнивали наш метод с двумя базовыми системами: централизованным методом, где все решения принимаются одним регулятором, и независимым методом, где каждый агент решает задачу независимо, независимо от других. Наши результаты показали, что многоагентный подход дает значительное улучшение во времени отклика и эффективности использования ресурсов по сравнению с централизованным подходом. Особенно заметно это в больших системах с высокой неопределенностью. Мы также проверяли нашу модель в условиях малого обновления ограничений, и она показала высокую устойчивость и точность.
## Значимость
Наш подход может быть применен в различных областях, где требуется эффективное управление рес
Abstract
In edge computing systems, autonomous agents must make fast local decisions
while competing for shared resources. Existing MARL methods often resume to
centralized critics or frequent communication, which fail under limited
observability and communication constraints. We propose a decentralized
framework in which each agent solves a constrained Markov decision process
(CMDP), coordinating implicitly through a shared constraint vector. For the
specific case of offloading, e.g., constraints prevent overloading shared
server resources. Coordination constraints are updated infrequently and act as
a lightweight coordination mechanism. They enable agents to align with global
resource usage objectives but require little direct communication. Using safe
reinforcement learning, agents learn policies that meet both local and global
goals. We establish theoretical guarantees under mild assumptions and validate
our approach experimentally, showing improved performance over centralized and
independent baselines, especially in large-scale settings.
Ссылки и действия
Дополнительные ресурсы: