Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

2508.11291v1 cs.IT, cs.AI, cs.LG, math.IT 2025-08-19
Авторы:

Rui Bao, Nan Xue, Yaping Sun, Zhiyong Chen

Резюме на русском

## Контекст Современная интеграция беспроводных сетей и больших языковых моделей (LLM) открывает путь к удобным умным сервисам для пользователей в различных средах. Однако, развертывание таких систем в среде связывания беспроводных устройств и центров обработки данных сопряжено с замкнутым выбором между высокой точностью результатов и минимальными задержками в обработке данных. Исходные модели на устройствах часто не могут справиться с высокой нагрузкой, тогда как оптимизация перенаправления задач на более мощные серверы может привести к долгому отклику. Фундаментальная неоптимальность в распределении ресурсов приводит к сокращению эффективности и удовлетворенности пользователей. Для решения этой проблемы необходимо разработать модель, которая бы анализировала задачу и оптимально организовывала перенаправление работы между устройством и сервером, учитывая потребности задачи и доступность ресурсов. ## Метод Разработанная модель представляет собой динамическую систему, которая анализирует запросы на решение и определяет наиболее подходящую стратегию оффлоада. Она включает в себя два модели расчета стоимости: одно для простых запросов и другое для многократных взаимодействий. Для простых запросов используется технология BERT для прогнозирования семантической точности и скрейчинг коммуникационной и вычислительной нагрузки. В случае многократных взаимодействий добавляется учет контекстной нагрузки, связанной с модельным переключением и менеджментом кэш-памяти. Решение архитектурно гибко и позволяет решить задачу оптимизации между качеством решения и задержкой, не теряя в целостности результата. ## Результаты На основе данных с бенчмаркового тестирования MMLU, GSM8K и MT-Bench-101 показано, что модель действительно успешно решает проблему. Она уменьшает среднее время отклика на 5-15%, сокращает использование мощных моделей на 10-20% по сравнению с другими подходами. Это достигается благодаря точному расчету нагрузки и оптимальному перенаправлению задач. Таким образом, модель не только сокращает задержки, но и эффективно распределяет ресурсы, что обеспечивает качественный результат и экономию ресурсов. ## Значимость Разработанный подход может быть применен в различных сферах, где требуется быстрая и качественная обработка больших моделей на устройствах с ограниченными ресурсами. Например, в сферах умных дома, здравоохранения, робототехники и др. Он обеспечивает улучшение пользовательского опыта за счет более быстрого отклика и экономии ресурсов. Помимо этого, система может стать ключевым элементом в развитии беспроводных сетей и смарт

Abstract

The integration of wireless communications and Large Language Models (LLMs) is poised to unlock ubiquitous intelligent services, yet deploying them in wireless edge-device collaborative environments presents a critical trade-off between inference quality and end-to-end latency. A fundamental mismatch exists between task complexity and resource allocation: offloading simple queries invites prohibitive latency, while on-device models lack the capacity for demanding computations. To address this challenge, we propose a dynamic, quality-latency aware routing framework that orchestrates inference between a lightweight model on the mobile device and a powerful model on the edge server. Our framework employs two distinct cost models: for single-turn queries, it fuses a BERT-predicted semantic score with communication and computation overheads; for multi-turn dialogues, it further quantifies context-aware costs arising from model switching and KV-cache management. While maintaining full inference quality, extensive experiments demonstrate that our framework cuts average response latency by 5-15% and reduces large model invocations by 10-20% against competitive baselines on MMLU, GSM8K, and MT-Bench-101 benchmarks.

Ссылки и действия

Связанные статьи

CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM...

## Контекст Модели л LLM (Large Language Models) внедряются в аппаратуре краевых устройств для обеспечения низкозадержан...

2025-08-19

Neural Beam Field for Spatial Beam RSRP Prediction

## Контекст Spatial beam RSRP (Reference Signal Received Power) prediction является ключевым аспектом управления битами...

2025-08-13

Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in ...

## Контекст Современные сети связи сталкиваются с вопросами повышения эффективности использования ресурсов, улучшения ка...

2025-08-13