CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems
2508.11287v1
cs.IT, cs.AI, cs.LG, math.IT
2025-08-19
Авторы:
Xuran Liu, Nan Xue, Rui Bao, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Shuguang Cui
Резюме на русском
## Контекст
Модели л LLM (Large Language Models) внедряются в аппаратуре краевых устройств для обеспечения низкозадержанных и анонимных сервисов AI. Однако ограничения ресурсов устройств порождают проблемы в развертывании таких моделей. Хотя технология параллелизма в канале позволяет разбивать вычисления по нескольким устройствам, существующие методы не учитывают задержки, возникающие при запуске модели на лету. Эта задержка, так называемая "затуханием", препятствует оптимальному использованию ресурсов и снижению задержек. Целью данного исследования является разработка алгоритма, который уменьшит этот эффект, приближая задачу к минимальной задержке в системах облачных вычислений.
## Метод
Предлагаемый подход, CSGO (Cold Start Generalized Optimization), является динамическим фреймворком, оптимизирующим загрузку модели и вычисления в краевых устройствах. Он предлагает схему параллелизма, в которой модель загружается в параллельном потоке, при этом вычисления ведутся на других устройствах. Разделение модели в параллельных узлах происходит в зависимости от параметров устройства и модели, чтобы динамически выбирать наилучший вариант. Динамическое программирование используется для оптимизации ресурсов, чтобы скрыть затухание и обеспечить минимальную задержку.
## Результаты
Для проверки подхода провели эксперименты на реальных данных с различными моделями л LLM. Набор данных включил различные устройства с разными характеристиками, такими как CPU, GPU и TPU. Результаты показали, что CSGO снижает затухание на значительной доли в сравнении с базовыми стратегиями. Также был проведен анализ эффективности, подтвердивший то, что модель загружается быстрее, и что существенное время потрачено на вычисления вместо ожидания.
## Значимость
Предложенный подход может быть применен в различных сценариях, таких как реальном времени, системах с низкой задержкой, таких как смартфоны, IoT-устройства, а также в системах с централизованным облаком. Он обеспечивает значительное сокращение задержек и снижает проблемы с памятью, которые характерны для традиционных подходов. Это может повлиять на развитие AI в области телекоммуникаций, интернета вещей и дальнейшем развитии краевых вычислений.
## Выводы
Результаты демонстрируют, что CSGO значительно сокращает затухание и улучшает эффективность устройств при развертывании л LLM. Будущие исследования будут направлены на дальнейшее улучшение метода для более сложных систем и применения в различных контекстах, включая распределенные системы и системы с большим количеством устройств. Это может вести к еще более эффекти
Abstract
While deploying large language models on edge devices promises low-latency
and privacy-preserving AI services, it is hindered by limited device resources.
Although pipeline parallelism facilitates distributed inference, existing
approaches often ignore the cold-start latency caused by on-demand model
loading. In this paper, we propose a latency-aware scheduling framework that
overlaps model loading with computation and communication to minimize total
inference latency. Based on device and model parameters, the framework
dynamically adjusts layer partitioning and allocation to effectively hide
loading time, thereby eliminating as many idle periods as possible. We
formulate the problem as a Mixed-Integer Non-Linear Program and design an
efficient dynamic programming algorithm to optimize model partitioning and
device assignment. Experimental results show that the proposed method
significantly reduces cold-start latency compared to baseline strategies.