Energy Efficient Task Offloading in UAV-Enabled MEC Using a Fully Decentralized Deep Reinforcement Learning Approach

2508.06863v1 cs.MA, cs.LG 2025-08-13
Авторы:

Hamidreza Asadian-Rad, Hossein Soleimani, Shahrokh Farahmand

Резюме на русском

#### Контекст Современные развития в области летательных аппаратов без экипажа (UAV) и мобильного облака (MEC) дают широкие возможности для оптимизации технических процессов в сложных сетевых средах. Например, UAVs возможно использовать в качестве вычислительных нод в системах MEC, чтобы обеспечить эффективную обработку данных близко к пользователям. Однако, задачи администрирования UAVs и оптимизации их траекторий в сети приводят к значительным сложностям. Эти сложности возникают из-за необходимости учета нескольких факторов, таких как эффективность использования энергии, возможность выполнения задач в режиме реального времени, и многообразие пользовательских запросов. Таким образом, цель состоит в разработке методов, позволяющих эффективно решать эти проблемы в системах UAV-enabled MEC. #### Метод Методология, предлагаемая в данной работе, основана на использовании метода динамического программировании (DP), который позволяет оптимизировать траектории UAVs и управлять их задачами за счет минимизации энергопотребления и оптимального распределения ресурсов. Для решения этой задачи, предлагается использовать алгоритмы углубленного обучения (Deep Reinforcement Learning, DRL), которые могут эффективно решать задачи автоматического администрирования в сетях с многоуровневой архитектурой. Был разработан метод, который включает в себя графовые слои внимания (Graph Attention Layers, GAT) и метод доказательства происхождения (Proof of Origin, PoO), чтобы обеспечить локальную связь между UAVs и их следящими нодами. Основным аспектом этого подхода является то, что UAVs обмениваются данными только с соседними нодами, что позволяет устранить необходимость в централизованном контроле. #### Результаты Для оценки эффективности предлагаемого подхода проводились компьютерные эксперименты, включавшие моделирование работы системы UAV-enabled MEC на основе симулятора Gazebo. В экспериментах была использована симуляция траекторий UAVs и распределения задач, при этом показано, что предлагаемый подход позволяет существенно сократить время обработки данных и энергопотребление, в сравнении с традиционными методами. Эксперименты демонстрируют, что децентрализованный подход, основанный на DRL, позволяет повысить эффективность UAV-enabled MEC систем, увеличивая скорость обработки и уменьшая трафик в сети. #### Значимость Предлагаемый подход может быть применен в различных сферах, где необходимо эффективное управление ресурсами в сети, например, в системах смарт-городов, мобильной коммуникации или в системах патрулирования с помощью UAVs. Он обеспечивает значительные преимущества

Abstract

Unmanned aerial vehicles (UAVs) have been recently utilized in multi-access edge computing (MEC) as edge servers. It is desirable to design UAVs' trajectories and user to UAV assignments to ensure satisfactory service to the users and energy efficient operation simultaneously. The posed optimization problem is challenging to solve because: (i) The formulated problem is non-convex, (ii) Due to the mobility of ground users, their future positions and channel gains are not known in advance, (iii) Local UAVs' observations should be communicated to a central entity that solves the optimization problem. The (semi-) centralized processing leads to communication overhead, communication/processing bottlenecks, lack of flexibility and scalability, and loss of robustness to system failures. To simultaneously address all these limitations, we advocate a fully decentralized setup with no centralized entity. Each UAV obtains its local observation and then communicates with its immediate neighbors only. After sharing information with neighbors, each UAV determines its next position via a locally run deep reinforcement learning (DRL) algorithm. None of the UAVs need to know the global communication graph. Two main components of our proposed solution are (i) Graph attention layers (GAT), and (ii) Experience and parameter sharing proximal policy optimization (EPS-PPO). Our proposed approach eliminates all the limitations of semi-centralized MADRL methods such as MAPPO and MA deep deterministic policy gradient (MADDPG), while guaranteeing a better performance than independent local DRLs such as in IPPO. Numerical results reveal notable performance gains in several different criteria compared to the existing MADDPG algorithm, demonstrating the potential for offering a better performance, while utilizing local communications only.

Ссылки и действия