Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding

2508.12590v1 cs.LG, cs.AI 2025-08-20
Авторы:

Jihoon Park, Seungeun Oh, Seong-Lyun Kim

Резюме на русском

#### Контекст В последние годы, системы глубокого обучения, особенно ло LLM (Large Language Models), получили масштабную популярность благодаря их высокой точности и гибкости. Однако, появление этих моделей привёл к существенным проблемам с энергоэффективностью и вычислительными затратами, особенно в ресурсо-ограничивающих средах, таких как edge devices. Для решения этой проблемы появились hlm (hybrid language models), которые объединяют в себе небольшие, локально работающие модели с мощными моделями, размещенными в облаке. Несмотря на то, что эти модели улучшили точность и время отклика, проблемы с энергоэффективностью и энергопотреблением остаются недоработанными. Наша исследовательская группа предлагает новую методологию для энергоэффективного интерпретации hlm, которая учитывает неопределенность и важность токенов. #### Метод Мы предлагаем новую методологию, основанную на токен-уровневом системе фильтрации, которая использует epistemic uncertainty и attention-based importance для определения наиболее важных токенов. Это позволяет оптимизировать систему, так чтобы только самые важные токены были отправлены облаку для обработки мощными моделями. Это уменьшает объем запросов к облачной модели и, в результате, энергопотребление и сетевые затраты. Наша архитектура использует новые методы для оценки неопределенности и важности токенов, а также для эффективного анализа, чтобы решать, какие токены должны быть отправлены в облако. #### Результаты Мы провели эксперименты с двумя моделями: TinyLlama-1.1B и LLaMA-2-7B. Наши результаты показали, что нашу новую методологию позволяет достичь высокой точности, сохранив энергоэффективность. Точность, измеримая по BERT Score, достигла 87.5%, токен-throughput составил 0.37 токенов/секунду, при этом энергопотребление было снижено на 40.7% по сравнению с стандартным hlm. Мы также сравнили наш результат с предыдущим baseline, U-HLM, и показали улучшение BERT Score с 85.8% до 87.0%, энергосбережение с 31.6% до 43.6%, а токен-throughput увеличилось с 0.36 до 0.40 токенов/секунду. Это демонстрирует, что наше решение предоставляет энергоэффективное решение для реализации LLMs в ограниченных сетевых условиях. #### Значимость Наша методология может быть применена в различных ситуациях, где необходима энергоэффективная работа локальных моделей с облачными системами. Она может быть использована в edge devices, IoT-устройствах, а также в ситуациях, где необходима высокая точность и энергоэффективность. Преимущества этого подхода заключаются в том, что он уменьшает требования к сети, энергопотребление и общие затраты на вычисления, при этом сохраняя высокую

Abstract

To address the growing demand for on-device LLM inference in resource-constrained environments, hybrid language models (HLM) have emerged, combining lightweight local models with powerful cloud-based LLMs. Recent studies on HLM have primarily focused on improving accuracy and latency, while often overlooking communication and energy efficiency. We propose a token-level filtering mechanism for an energy-efficient importance- and uncertainty-aware HLM inference that leverages both epistemic uncertainty and attention-based importance. Our method opportunistically uploads only informative tokens, reducing LLM usage and communication costs. Experiments with TinyLlama-1.1B and LLaMA-2-7B demonstrate that our method achieves up to 87.5% BERT Score and token throughput of 0.37 tokens/sec while saving the energy consumption by 40.7% compared to standard HLM. Furthermore, compared to our previous U-HLM baseline, our method improves BERTScore from 85.8% to 87.0%, energy savings from 31.6% to 43.6%, and throughput from 0.36 to 0.40. This approach enables an energy-efficient and accurate deployment of LLMs in bandwidth-constrained edge environments.

Ссылки и действия