#### Контекст
В последние годы, системы глубокого обучения, особенно ло LLM (Large Language Models), получили масштабную популярность благодаря их высокой точности и гибкости. Однако, появление этих моделей привёл к существенным проблемам с энергоэффективностью и вычислительными затратами, особенно в ресурсо-ограничивающих средах, таких как edge devices. Для решения этой проблемы появились hlm (hybrid language models), которые объединяют в себе небольшие, локально работающие модели с мощными моделями, размещенными в облаке. Несмотря на то, что эти модели улучшили точность и время отклика, проблемы с энергоэффективностью и энергопотреблением остаются недоработанными. Наша исследовательская группа предлагает новую методологию для энергоэффективного интерпретации hlm, которая учитывает неопределенность и важность токенов.
#### Метод
Мы предлагаем новую методологию, основанную на токен-уровневом системе фильтрации, которая использует epistemic uncertainty и attention-based importance для определения наиболее важных токенов. Это позволяет оптимизировать систему, так чтобы только самые важные токены были отправлены облаку для обработки мощными моделями. Это уменьшает объем запросов к облачной модели и, в результате, энергопотребление и сетевые затраты. Наша архитектура использует новые методы для оценки неопределенности и важности токенов, а также для эффективного анализа, чтобы решать, какие токены должны быть отправлены в облако.
#### Результаты
Мы провели эксперименты с двумя моделями: TinyLlama-1.1B и LLaMA-2-7B. Наши результаты показали, что нашу новую методологию позволяет достичь высокой точности, сохранив энергоэффективность. Точность, измеримая по BERT Score, достигла 87.5%, токен-throughput составил 0.37 токенов/секунду, при этом энергопотребление было снижено на 40.7% по сравнению с стандартным hlm. Мы также сравнили наш результат с предыдущим baseline, U-HLM, и показали улучшение BERT Score с 85.8% до 87.0%, энергосбережение с 31.6% до 43.6%, а токен-throughput увеличилось с 0.36 до 0.40 токенов/секунду. Это демонстрирует, что наше решение предоставляет энергоэффективное решение для реализации LLMs в ограниченных сетевых условиях.
#### Значимость
Наша методология может быть применена в различных ситуациях, где необходима энергоэффективная работа локальных моделей с облачными системами. Она может быть использована в edge devices, IoT-устройствах, а также в ситуациях, где необходима высокая точность и энергоэффективность. Преимущества этого подхода заключаются в том, что он уменьшает требования к сети, энергопотребление и общие затраты на вычисления, при этом сохраняя высокую