CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems

2508.11287v1 cs.IT, cs.AI, cs.LG, math.IT 2025-08-19
Авторы:

Xuran Liu, Nan Xue, Rui Bao, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Shuguang Cui

Резюме на русском

## Контекст Модели л LLM (Large Language Models) внедряются в аппаратуре краевых устройств для обеспечения низкозадержанных и анонимных сервисов AI. Однако ограничения ресурсов устройств порождают проблемы в развертывании таких моделей. Хотя технология параллелизма в канале позволяет разбивать вычисления по нескольким устройствам, существующие методы не учитывают задержки, возникающие при запуске модели на лету. Эта задержка, так называемая "затуханием", препятствует оптимальному использованию ресурсов и снижению задержек. Целью данного исследования является разработка алгоритма, который уменьшит этот эффект, приближая задачу к минимальной задержке в системах облачных вычислений. ## Метод Предлагаемый подход, CSGO (Cold Start Generalized Optimization), является динамическим фреймворком, оптимизирующим загрузку модели и вычисления в краевых устройствах. Он предлагает схему параллелизма, в которой модель загружается в параллельном потоке, при этом вычисления ведутся на других устройствах. Разделение модели в параллельных узлах происходит в зависимости от параметров устройства и модели, чтобы динамически выбирать наилучший вариант. Динамическое программирование используется для оптимизации ресурсов, чтобы скрыть затухание и обеспечить минимальную задержку. ## Результаты Для проверки подхода провели эксперименты на реальных данных с различными моделями л LLM. Набор данных включил различные устройства с разными характеристиками, такими как CPU, GPU и TPU. Результаты показали, что CSGO снижает затухание на значительной доли в сравнении с базовыми стратегиями. Также был проведен анализ эффективности, подтвердивший то, что модель загружается быстрее, и что существенное время потрачено на вычисления вместо ожидания. ## Значимость Предложенный подход может быть применен в различных сценариях, таких как реальном времени, системах с низкой задержкой, таких как смартфоны, IoT-устройства, а также в системах с централизованным облаком. Он обеспечивает значительное сокращение задержек и снижает проблемы с памятью, которые характерны для традиционных подходов. Это может повлиять на развитие AI в области телекоммуникаций, интернета вещей и дальнейшем развитии краевых вычислений. ## Выводы Результаты демонстрируют, что CSGO значительно сокращает затухание и улучшает эффективность устройств при развертывании л LLM. Будущие исследования будут направлены на дальнейшее улучшение метода для более сложных систем и применения в различных контекстах, включая распределенные системы и системы с большим количеством устройств. Это может вести к еще более эффекти

Abstract

While deploying large language models on edge devices promises low-latency and privacy-preserving AI services, it is hindered by limited device resources. Although pipeline parallelism facilitates distributed inference, existing approaches often ignore the cold-start latency caused by on-demand model loading. In this paper, we propose a latency-aware scheduling framework that overlaps model loading with computation and communication to minimize total inference latency. Based on device and model parameters, the framework dynamically adjusts layer partitioning and allocation to effectively hide loading time, thereby eliminating as many idle periods as possible. We formulate the problem as a Mixed-Integer Non-Linear Program and design an efficient dynamic programming algorithm to optimize model partitioning and device assignment. Experimental results show that the proposed method significantly reduces cold-start latency compared to baseline strategies.

Ссылки и действия

Связанные статьи

Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device ...

## Контекст Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным с...

2025-08-19

Neural Beam Field for Spatial Beam RSRP Prediction

## Контекст Spatial beam RSRP (Reference Signal Received Power) prediction является ключевым аспектом управления битами...

2025-08-13

Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in ...

## Контекст Современные сети связи сталкиваются с вопросами повышения эффективности использования ресурсов, улучшения ка...

2025-08-13