Energy-Efficient Wireless LLM Inference via Uncertainty and Importance-Aware Speculative Decoding
2508.12590v1
cs.LG, cs.AI
2025-08-20
Авторы:
Jihoon Park, Seungeun Oh, Seong-Lyun Kim
Резюме на русском
#### Контекст
В последние годы, системы глубокого обучения, особенно ло LLM (Large Language Models), получили масштабную популярность благодаря их высокой точности и гибкости. Однако, появление этих моделей привёл к существенным проблемам с энергоэффективностью и вычислительными затратами, особенно в ресурсо-ограничивающих средах, таких как edge devices. Для решения этой проблемы появились hlm (hybrid language models), которые объединяют в себе небольшие, локально работающие модели с мощными моделями, размещенными в облаке. Несмотря на то, что эти модели улучшили точность и время отклика, проблемы с энергоэффективностью и энергопотреблением остаются недоработанными. Наша исследовательская группа предлагает новую методологию для энергоэффективного интерпретации hlm, которая учитывает неопределенность и важность токенов.
#### Метод
Мы предлагаем новую методологию, основанную на токен-уровневом системе фильтрации, которая использует epistemic uncertainty и attention-based importance для определения наиболее важных токенов. Это позволяет оптимизировать систему, так чтобы только самые важные токены были отправлены облаку для обработки мощными моделями. Это уменьшает объем запросов к облачной модели и, в результате, энергопотребление и сетевые затраты. Наша архитектура использует новые методы для оценки неопределенности и важности токенов, а также для эффективного анализа, чтобы решать, какие токены должны быть отправлены в облако.
#### Результаты
Мы провели эксперименты с двумя моделями: TinyLlama-1.1B и LLaMA-2-7B. Наши результаты показали, что нашу новую методологию позволяет достичь высокой точности, сохранив энергоэффективность. Точность, измеримая по BERT Score, достигла 87.5%, токен-throughput составил 0.37 токенов/секунду, при этом энергопотребление было снижено на 40.7% по сравнению с стандартным hlm. Мы также сравнили наш результат с предыдущим baseline, U-HLM, и показали улучшение BERT Score с 85.8% до 87.0%, энергосбережение с 31.6% до 43.6%, а токен-throughput увеличилось с 0.36 до 0.40 токенов/секунду. Это демонстрирует, что наше решение предоставляет энергоэффективное решение для реализации LLMs в ограниченных сетевых условиях.
#### Значимость
Наша методология может быть применена в различных ситуациях, где необходима энергоэффективная работа локальных моделей с облачными системами. Она может быть использована в edge devices, IoT-устройствах, а также в ситуациях, где необходима высокая точность и энергоэффективность. Преимущества этого подхода заключаются в том, что он уменьшает требования к сети, энергопотребление и общие затраты на вычисления, при этом сохраняя высокую
Abstract
To address the growing demand for on-device LLM inference in
resource-constrained environments, hybrid language models (HLM) have emerged,
combining lightweight local models with powerful cloud-based LLMs. Recent
studies on HLM have primarily focused on improving accuracy and latency, while
often overlooking communication and energy efficiency. We propose a token-level
filtering mechanism for an energy-efficient importance- and uncertainty-aware
HLM inference that leverages both epistemic uncertainty and attention-based
importance. Our method opportunistically uploads only informative tokens,
reducing LLM usage and communication costs. Experiments with TinyLlama-1.1B and
LLaMA-2-7B demonstrate that our method achieves up to 87.5% BERT Score and
token throughput of 0.37 tokens/sec while saving the energy consumption by
40.7% compared to standard HLM. Furthermore, compared to our previous U-HLM
baseline, our method improves BERTScore from 85.8% to 87.0%, energy savings
from 31.6% to 43.6%, and throughput from 0.36 to 0.40. This approach enables an
energy-efficient and accurate deployment of LLMs in bandwidth-constrained edge
environments.
Ссылки и действия
Дополнительные ресурсы: