Energy Efficient Task Offloading in UAV-Enabled MEC Using a Fully Decentralized Deep Reinforcement Learning Approach
2508.06863v1
cs.MA, cs.LG
2025-08-13
Авторы:
Hamidreza Asadian-Rad, Hossein Soleimani, Shahrokh Farahmand
Резюме на русском
#### Контекст
Современные развития в области летательных аппаратов без экипажа (UAV) и мобильного облака (MEC) дают широкие возможности для оптимизации технических процессов в сложных сетевых средах. Например, UAVs возможно использовать в качестве вычислительных нод в системах MEC, чтобы обеспечить эффективную обработку данных близко к пользователям. Однако, задачи администрирования UAVs и оптимизации их траекторий в сети приводят к значительным сложностям. Эти сложности возникают из-за необходимости учета нескольких факторов, таких как эффективность использования энергии, возможность выполнения задач в режиме реального времени, и многообразие пользовательских запросов. Таким образом, цель состоит в разработке методов, позволяющих эффективно решать эти проблемы в системах UAV-enabled MEC.
#### Метод
Методология, предлагаемая в данной работе, основана на использовании метода динамического программировании (DP), который позволяет оптимизировать траектории UAVs и управлять их задачами за счет минимизации энергопотребления и оптимального распределения ресурсов. Для решения этой задачи, предлагается использовать алгоритмы углубленного обучения (Deep Reinforcement Learning, DRL), которые могут эффективно решать задачи автоматического администрирования в сетях с многоуровневой архитектурой. Был разработан метод, который включает в себя графовые слои внимания (Graph Attention Layers, GAT) и метод доказательства происхождения (Proof of Origin, PoO), чтобы обеспечить локальную связь между UAVs и их следящими нодами. Основным аспектом этого подхода является то, что UAVs обмениваются данными только с соседними нодами, что позволяет устранить необходимость в централизованном контроле.
#### Результаты
Для оценки эффективности предлагаемого подхода проводились компьютерные эксперименты, включавшие моделирование работы системы UAV-enabled MEC на основе симулятора Gazebo. В экспериментах была использована симуляция траекторий UAVs и распределения задач, при этом показано, что предлагаемый подход позволяет существенно сократить время обработки данных и энергопотребление, в сравнении с традиционными методами. Эксперименты демонстрируют, что децентрализованный подход, основанный на DRL, позволяет повысить эффективность UAV-enabled MEC систем, увеличивая скорость обработки и уменьшая трафик в сети.
#### Значимость
Предлагаемый подход может быть применен в различных сферах, где необходимо эффективное управление ресурсами в сети, например, в системах смарт-городов, мобильной коммуникации или в системах патрулирования с помощью UAVs. Он обеспечивает значительные преимущества
Abstract
Unmanned aerial vehicles (UAVs) have been recently utilized in multi-access
edge computing (MEC) as edge servers. It is desirable to design UAVs'
trajectories and user to UAV assignments to ensure satisfactory service to the
users and energy efficient operation simultaneously. The posed optimization
problem is challenging to solve because: (i) The formulated problem is
non-convex, (ii) Due to the mobility of ground users, their future positions
and channel gains are not known in advance, (iii) Local UAVs' observations
should be communicated to a central entity that solves the optimization
problem. The (semi-) centralized processing leads to communication overhead,
communication/processing bottlenecks, lack of flexibility and scalability, and
loss of robustness to system failures. To simultaneously address all these
limitations, we advocate a fully decentralized setup with no centralized
entity. Each UAV obtains its local observation and then communicates with its
immediate neighbors only. After sharing information with neighbors, each UAV
determines its next position via a locally run deep reinforcement learning
(DRL) algorithm. None of the UAVs need to know the global communication graph.
Two main components of our proposed solution are (i) Graph attention layers
(GAT), and (ii) Experience and parameter sharing proximal policy optimization
(EPS-PPO). Our proposed approach eliminates all the limitations of
semi-centralized MADRL methods such as MAPPO and MA deep deterministic policy
gradient (MADDPG), while guaranteeing a better performance than independent
local DRLs such as in IPPO. Numerical results reveal notable performance gains
in several different criteria compared to the existing MADDPG algorithm,
demonstrating the potential for offering a better performance, while utilizing
local communications only.
Ссылки и действия
Дополнительные ресурсы: