Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

2508.11291v1 cs.IT, cs.AI, cs.LG, math.IT 2025-08-19

Авторы:

Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen

Резюме на русском

## Контекст Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным сервисам для пользователей в различных средах. Однако, развертывание таких систем в среде связывания беспроводных устройств и центров обработки данных сопряжено с замкнутым выбором между высокой точностью результатов и минимальными задержками в обработке данных. Исходные модели на устройствах часто не могут справиться с высокой нагрузкой, тогда как оптимизация перенаправления задач на более мощные серверы может привести к долгому отклику. Фундаментальная неоптимальность в распределении ресурсов приводит к сокращению эффективности и удовлетворенности пользователей. Для решения этой проблемы необходимо разработать модель, которая бы анализировала задачу и оптимально организовывала перенаправление работы между устройством и сервером, учитывая потребности задачи и доступность ресурсов. ## Метод Разработанная модель представляет собой динамическую систему, которая анализирует запросы на решение и определяет наиболее подходящую стратегию оффлоада. Она включает в себя два модели расчета стоимости: одно для простых запросов и другое для многократных взаимодействий. Для простых запросов используется технология BERT для прогнозирования семантической точности и скрейчинг коммуникационной и вычислительной нагрузки. В случае многократных взаимодействий добавляется учет контекстной нагрузки, связанной с модельным переключением и менеджментом кэш-памяти. Решение архитектурно гибко и позволяет решить задачу оптимизации между качеством решения и задержкой, не теряя в целостности результата. ## Результаты На основе данных с бенчмаркового тестирования MMLU, GSM8K и MT-Bench-101 показано, что модель действительно успешно решает проблему. Она уменьшает среднее время отклика на 5-15%, сокращает использование мощных моделей на 10-20% по сравнению с другими подходами. Это достигается благодаря точному расчету нагрузки и оптимальному перенаправлению задач. Таким образом, модель не только сокращает задержки, но и эффективно распределяет ресурсы, что обеспечивает качественный результат и экономию ресурсов. ## Значимость Разработанный подход может быть применен в различных сферах, где требуется быстрая и качественная обработка больших моделей на устройствах с ограниченными ресурсами. Например, в сферах умных дома, здравоохранения, робототехники и др. Он обеспечивает улучшение пользовательского опыта за счет более быстрого отклика и экономии ресурсов. Помимо этого, система может стать ключевым элементом в развитии беспроводных сетей и смарт

Abstract

The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this challenge, we propose a dynamic, quality-latency aware routing framework that orchestrates inference between a lightweight model on the mobile device and a powerful model on the edge server. Our framework employs two distinct cost models: for single-turn queries, it fuses a BERT-predicted semantic score with communication and computation overheads; for multi-turn dialogues, it further quantifies context-aware costs arising from model switching and KV-cache management. While maintaining full inference quality, extensive experiments demonstrate that our framework cuts average response latency by 5-15% and reduces large model invocations by 10-20% against competitive baselines on MMLU, GSM8K, and MT-Bench-101 benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM...

Neural Beam Field for Spatial Beam RSRP Prediction

Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in ...

Навигация