Multi-Agent Reinforcement Learning for Task Offloading in Wireless Edge Networks

2509.01257v1 cs.LG, cs.AI, cs.NI 2025-09-05

Авторы:

Andrea Fox, Francesco De Pellegrini, Eitan Altman

Резюме на русском

## Контекст Edge computing системы представляют собой распределенные среды, где несколько устройств должны принимать скоростные решения в реальном времени, используя ограниченные ресурсы, такие как сетевое пространство и вычислительная мощность. Эти системы часто сталкиваются с проблемами, такими как неопределенность в сетевом трафике, конфликты за ресурсами и нехватка вычислительного времени. Одной из ключевых задач в таких системах является "offloading" — перенос задач с ограниченного устройства на более мощный сервер. Однако эффективное решение этой задачи требует координации множества агентов, чтобы избежать конфликтов и оптимизировать использование ресурсов. Существующие методы логических решений часто либо централизованны, либо требуют частого обмена информацией, что неэффективно в условиях ограниченности сетевого трафика и неопределенности. ## Метод Мы предлагаем уникальный подход к решению данной проблемы, основанный на многоагентном управлении подкреплением (MARL). Наша модель основывается на конструкции децентрализованного фреймворка, в котором каждый агент решает собственный задачу оптимизации — строго ограниченную задачу марковского решения (CMDP). Агенты обмениваются информацией только через связь с контроллером, который обновляет ограничения в CMDP на основе глобальных целей системы. Это позволяет агентам заботиться о собственных локальных целях, не теряя глобальную координацию. Такой подход значительно сокращает объем сетевой информации, требуемую для обмена, и позволяет системе работать даже при нестабильном соединении. Мы также применяем методы безопасного многоагентного обучения для того, чтобы гарантировать, что каждый агент будет работать в пределах безопасного диапазона действий. ## Результаты Мы проводили эксперименты в симуляторе для оценки производительности нашего метода в параллельном оффлоадинге. Мы сравнивали наш метод с двумя базовыми системами: централизованным методом, где все решения принимаются одним регулятором, и независимым методом, где каждый агент решает задачу независимо, независимо от других. Наши результаты показали, что многоагентный подход дает значительное улучшение во времени отклика и эффективности использования ресурсов по сравнению с централизованным подходом. Особенно заметно это в больших системах с высокой неопределенностью. Мы также проверяли нашу модель в условиях малого обновления ограничений, и она показала высокую устойчивость и точность. ## Значимость Наш подход может быть применен в различных областях, где требуется эффективное управление рес

Abstract

In edge computing systems, autonomous agents must make fast local decisions while competing for shared resources. Existing MARL methods often resume to centralized critics or frequent communication, which fail under limited observability and communication constraints. We propose a decentralized framework in which each agent solves a constrained Markov decision process (CMDP), coordinating implicitly through a shared constraint vector. For the specific case of offloading, e.g., constraints prevent overloading shared server resources. Coordination constraints are updated infrequently and act as a lightweight coordination mechanism. They enable agents to align with global resource usage objectives but require little direct communication. Using safe reinforcement learning, agents learn policies that meet both local and global goals. We establish theoretical guarantees under mild assumptions and validate our approach experimentally, showing improved performance over centralized and independent baselines, especially in large-scale settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multi-Agent Reinforcement Learning for Task Offloading in Wireless Edge Networks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

No One-Model-Fits-All: Uncovering Spatio-Temporal Forecasting Trade-offs with Gr...

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile ...

CardioForest: An Explainable Ensemble Learning Model for Automatic Wide QRS Comp...

Attention Beyond Neighborhoods: Reviving Transformer for Graph Clustering

Sample Efficient Experience Replay in Non-stationary Environments

Навигация