📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems

2025-08-19

Авторы:

Xuran Liu, Nan Xue, Rui Bao, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Shuguang Cui

## Контекст Модели л LLM (Large Language Models) внедряются в аппаратуре краевых устройств для обеспечения низкозадержанных и анонимных сервисов AI. Однако ограничения ресурсов устройств порождают проблемы в развертывании таких моделей. Хотя технология параллелизма в канале позволяет разбивать вычисления по нескольким устройствам, существующие методы не учитывают задержки, возникающие при запуске модели на лету. Эта задержка, так называемая "затуханием", препятствует оптимальному использованию ресурсов и снижению задержек. Целью данного исследования является разработка алгоритма, который уменьшит этот эффект, приближая задачу к минимальной задержке в системах облачных вычислений. ## Метод Предлагаемый подход, CSGO (Cold Start Generalized Optimization), является динамическим фреймворком, оптимизирующим загрузку модели и вычисления в краевых устройствах. Он предлагает схему параллелизма, в которой модель загружается в параллельном потоке, при этом вычисления ведутся на других устройствах. Разделение модели в параллельных узлах происходит в зависимости от параметров устройства и модели, чтобы динамически выбирать наилучший вариант. Динамическое программирование используется для оптимизации ресурсов, чтобы скрыть затухание и обеспечить минимальную задержку. ## Результаты Для проверки подхода провели эксперименты на реальных данных с различными моделями л LLM. Набор данных включил различные устройства с разными характеристиками, такими как CPU, GPU и TPU. Результаты показали, что CSGO снижает затухание на значительной доли в сравнении с базовыми стратегиями. Также был проведен анализ эффективности, подтвердивший то, что модель загружается быстрее, и что существенное время потрачено на вычисления вместо ожидания. ## Значимость Предложенный подход может быть применен в различных сценариях, таких как реальном времени, системах с низкой задержкой, таких как смартфоны, IoT-устройства, а также в системах с централизованным облаком. Он обеспечивает значительное сокращение задержек и снижает проблемы с памятью, которые характерны для традиционных подходов. Это может повлиять на развитие AI в области телекоммуникаций, интернета вещей и дальнейшем развитии краевых вычислений. ## Выводы Результаты демонстрируют, что CSGO значительно сокращает затухание и улучшает эффективность устройств при развертывании л LLM. Будущие исследования будут направлены на дальнейшее улучшение метода для более сложных систем и применения в различных контекстах, включая распределенные системы и системы с большим количеством устройств. Это может вести к еще более эффекти

Annotation:

While deploying large language models on edge devices promises low-latency and privacy-preserving AI services, it is hindered by limited device resources. Although pipeline parallelism facilitates distributed inference, existing approaches often ignore the cold-start latency caused by on-demand model loading. In this paper, we propose a latency-aware scheduling framework that overlaps model loading with computation and communication to minimize total inference latency. Based on device and model ...

ID: 2508.11287v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

2025-08-19

Авторы:

Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen

## Контекст Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным сервисам для пользователей в различных средах. Однако, развертывание таких систем в среде связывания беспроводных устройств и центров обработки данных сопряжено с замкнутым выбором между высокой точностью результатов и минимальными задержками в обработке данных. Исходные модели на устройствах часто не могут справиться с высокой нагрузкой, тогда как оптимизация перенаправления задач на более мощные серверы может привести к долгому отклику. Фундаментальная неоптимальность в распределении ресурсов приводит к сокращению эффективности и удовлетворенности пользователей. Для решения этой проблемы необходимо разработать модель, которая бы анализировала задачу и оптимально организовывала перенаправление работы между устройством и сервером, учитывая потребности задачи и доступность ресурсов. ## Метод Разработанная модель представляет собой динамическую систему, которая анализирует запросы на решение и определяет наиболее подходящую стратегию оффлоада. Она включает в себя два модели расчета стоимости: одно для простых запросов и другое для многократных взаимодействий. Для простых запросов используется технология BERT для прогнозирования семантической точности и скрейчинг коммуникационной и вычислительной нагрузки. В случае многократных взаимодействий добавляется учет контекстной нагрузки, связанной с модельным переключением и менеджментом кэш-памяти. Решение архитектурно гибко и позволяет решить задачу оптимизации между качеством решения и задержкой, не теряя в целостности результата. ## Результаты На основе данных с бенчмаркового тестирования MMLU, GSM8K и MT-Bench-101 показано, что модель действительно успешно решает проблему. Она уменьшает среднее время отклика на 5-15%, сокращает использование мощных моделей на 10-20% по сравнению с другими подходами. Это достигается благодаря точному расчету нагрузки и оптимальному перенаправлению задач. Таким образом, модель не только сокращает задержки, но и эффективно распределяет ресурсы, что обеспечивает качественный результат и экономию ресурсов. ## Значимость Разработанный подход может быть применен в различных сферах, где требуется быстрая и качественная обработка больших моделей на устройствах с ограниченными ресурсами. Например, в сферах умных дома, здравоохранения, робототехники и др. Он обеспечивает улучшение пользовательского опыта за счет более быстрого отклика и экономии ресурсов. Помимо этого, система может стать ключевым элементом в развитии беспроводных сетей и смарт

Annotation:

The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this ch...

ID: 2508.11291v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 Neural Beam Field for Spatial Beam RSRP Prediction

2025-08-13

Авторы:

Keqiang Guo, Yuheng Zhong, Xin Tong, Jiangbin Lyu, Rui Zhang

## Контекст Spatial beam RSRP (Reference Signal Received Power) prediction является ключевым аспектом управления битами в сетях с многопользовательским доступом, таких как 5G и 6G. Это необходимо для оптимизации связи, уменьшения задержек и повышения эффективности использования ресурсов. Однако, существуют ряд проблем, таких как высокий оверхед в измерениях, быстрые изменения каналов и необходимость интерактивного обучения. Избыточная зависимость от экспериментальных данных и ограниченная интерпретируемость многих существующих подходов, таких как DNNs или table-based CKMs (channel knowledge maps), становится исключительно острой. Необходимы новые подходы, которые объединялиientificать, эффективно обучаться и легко адаптироваться к новым условиям. ## Метод Наш подход, Neural Beam Field (NBF), является гибридным фреймворком, который объединяет физический инсайт с глубоким обучением. Мы предлагаем идею Multi-path Conditional Power Profile (MCPP), которая моделирует пространственную зависимость RSRP с использованием аналитического подхода. Central to NBF is the use of a decoupled "blackbox-whitebox" design: глубокая нейронная сеть на основе Transformer учится моделировать MCPP на основе спарсиных данных позиций и измерений, в то время как физический модуль аналитически определяет статистики RSRP. Для улучшения адаптивности и скорости обучения мы ввёли Pretrain-and-Calibrate (PaC) strategy, которая включает использование предварительного обучения на основе рэй-трейсинга и локальной калибровки с данными RSRP. Это проектирование обеспечивает лучшую точность, эффективность и универсальность по сравнению с классическими подходами. ## Результаты Мы провели обширные эксперименты на различных сетевых симуляциях, используя реальные данные RSRP. Наши результаты показали, что NBF превосходит существующие CKM-based и DNN-based подходы во всех ключевых аспектах: точность предсказания, эффективность обучения и универсальность. Например, NBF показывает снижение ошибки в предсказании на 20-30% по сравнению с CKM и 10-15% по сравнению с нейронными сетями. Также, наша модель значительно меньше в размере и быстрее в обучении, что делает её применимую к реальным сетям. ## Значимость Прототип Neural Beam Field может быть применен в различных областях, таких как beamforming, intelligent scheduling и resource allocation в 5G/6G сетях. Он обеспечивает более точное управление пространственными битами, уменьшает оверхед в измерениях и позволяет быстрее адаптироваться к изменениям канала. Этот подход также может способствовать уменьшению использования энергии и повышению качества связи, что является ключевым фактором для надежности и эффективности сетей. ## Выводы Мы представили Neural Beam Field как эффективный гибрид

Annotation:

Accurately predicting beam-level reference signal received power (RSRP) is essential for beam management in dense multi-user wireless networks, yet challenging due to high measurement overhead and fast channel variations. This paper proposes Neural Beam Field (NBF), a hybrid neural-physical framework for efficient and interpretable spatial beam RSRP prediction. Central to our approach is the introduction of the Multi-path Conditional Power Profile (MCPP), which bridges site-specific multipath pr...

ID: 2508.06956v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in Multi-User Systems

2025-08-13

Авторы:

Xintong Chen, Zhenyu Jiang, Jiangbin Lyu, Liqun Fu

## Контекст Современные сети связи сталкиваются с вопросами повышения эффективности использования ресурсов, улучшения качества обслуживания и снижения задержек. Одним из актуальных решений является использование Intelligent Reflecting Surfaces (IRSs), которые могут динамически изменять распространение сигналов для оптимизации системной производительности. Однако IRSs сталкиваются с рядом проблем, включая высокую сложность задач распределения каналов в многопользовательских системах, необходимость точного канального моделирования и снижения трафика при передаче данных. Недостаточное понимание этих проблем приводит к затруднениям в оптимальном использовании IRSs в реальных сетях. ## Метод Разработанное решение основывается на использовании Neural Channel Knowledge Map (CKM), который активно использует исторические данные о каналах и пропускной способности, связанные с положениями пользователей. Для точного прогнозирования характеристик канала и производительности сети развиты две различные сети: LPS-Net и SE-Net. LPS-Net предсказывает статистические характеристики мощности сигнала, а SE-Net — предсказывает эргодическую пропускную способность. Также предложен алгоритм Stable Matching-Iterative Balancing (SM-IB), который эффективно решает задачу многопользовательской задачи распределения каналов. ## Результаты Использованные эксперименты показали, что предложенный подход существенно повышает точность прогнозирования канала и производительности сети. На основе исторических данных, таких как положение пользователей и их параметры канала, прогнозирование производительности IRSs улучшилось, что позволяет быстрее и эффективнее принимать решения о распределении ресурсов. Также SM-IB-алгоритм эффективно сокращает сложность системы и достигает близкой к оптимальной производительности. ## Значимость Решение предлагает значительные преимущества для сетей связи, включая увеличение пропускной способности, сокращение задержек и улучшение качества обслуживания. Это может быть применено в сценариях, таких как 5G/6G-сети, и для улучшения общей эффективности систем. Благодаря использованию DNNs и глубокого обучения, этот подход может быть применен в различных сценариях с многопользовательскими сетями, где необходима высокая скорость и точность процессов оптимизации канала. ## Выводы Разработанный подход с Neural CKM и SM-IB-алгоритмом продемонстрировал свою эффективность в решении ключевых задач в многопользовательских IRS-системах. Будущие исследования будут направлены на улучшение точности прогнозирования, расширение применений к более сложным сетевым сценариям и исследование способов дальнейшего уменьшения сложности распределения каналов

Annotation:

Intelligent Reflecting Surfaces (IRSs) have potential for significant performance gains in next-generation wireless networks but face key challenges, notably severe double-pathloss and complex multi-user scheduling due to hardware constraints. Active IRSs partially address pathloss but still require efficient scheduling in cell-level multi-IRS multi-user systems, whereby the overhead/delay of channel state acquisition and the scheduling complexity both rise dramatically as the user density and c...

ID: 2508.07009v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF