Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks
2508.11291v1
cs.IT, cs.AI, cs.LG, math.IT
2025-08-19
Авторы:
Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen
Резюме на русском
## Контекст
Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным сервисам для пользователей в различных средах. Однако, развертывание таких систем в среде связывания беспроводных устройств и центров обработки данных сопряжено с замкнутым выбором между высокой точностью результатов и минимальными задержками в обработке данных. Исходные модели на устройствах часто не могут справиться с высокой нагрузкой, тогда как оптимизация перенаправления задач на более мощные серверы может привести к долгому отклику. Фундаментальная неоптимальность в распределении ресурсов приводит к сокращению эффективности и удовлетворенности пользователей. Для решения этой проблемы необходимо разработать модель, которая бы анализировала задачу и оптимально организовывала перенаправление работы между устройством и сервером, учитывая потребности задачи и доступность ресурсов.
## Метод
Разработанная модель представляет собой динамическую систему, которая анализирует запросы на решение и определяет наиболее подходящую стратегию оффлоада. Она включает в себя два модели расчета стоимости: одно для простых запросов и другое для многократных взаимодействий. Для простых запросов используется технология BERT для прогнозирования семантической точности и скрейчинг коммуникационной и вычислительной нагрузки. В случае многократных взаимодействий добавляется учет контекстной нагрузки, связанной с модельным переключением и менеджментом кэш-памяти. Решение архитектурно гибко и позволяет решить задачу оптимизации между качеством решения и задержкой, не теряя в целостности результата.
## Результаты
На основе данных с бенчмаркового тестирования MMLU, GSM8K и MT-Bench-101 показано, что модель действительно успешно решает проблему. Она уменьшает среднее время отклика на 5-15%, сокращает использование мощных моделей на 10-20% по сравнению с другими подходами. Это достигается благодаря точному расчету нагрузки и оптимальному перенаправлению задач. Таким образом, модель не только сокращает задержки, но и эффективно распределяет ресурсы, что обеспечивает качественный результат и экономию ресурсов.
## Значимость
Разработанный подход может быть применен в различных сферах, где требуется быстрая и качественная обработка больших моделей на устройствах с ограниченными ресурсами. Например, в сферах умных дома, здравоохранения, робототехники и др. Он обеспечивает улучшение пользовательского опыта за счет более быстрого отклика и экономии ресурсов. Помимо этого, система может стать ключевым элементом в развитии беспроводных сетей и смарт
Abstract
The integration of wireless communications and Large Language Models (LLMs)
is poised to unlock ubiquitous intelligent services, yet deploying them in
wireless edge-device collaborative environments presents a critical trade-off
between inference quality and end-to-end latency. A fundamental mismatch exists
between task complexity and resource allocation: offloading simple queries
invites prohibitive latency, while on-device models lack the capacity for
demanding computations. To address this challenge, we propose a dynamic,
quality-latency aware routing framework that orchestrates inference between a
lightweight model on the mobile device and a powerful model on the edge server.
Our framework employs two distinct cost models: for single-turn queries, it
fuses a BERT-predicted semantic score with communication and computation
overheads; for multi-turn dialogues, it further quantifies context-aware costs
arising from model switching and KV-cache management. While maintaining full
inference quality, extensive experiments demonstrate that our framework cuts
average response latency by 5-15% and reduces large model invocations by 10-20%
against competitive baselines on MMLU, GSM8K, and MT-Bench-101 benchmarks.