DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment
2508.06041v1
cs.LG, cs.AI
2025-08-12
Авторы:
Sangwoo Kwon, Seong Hoon Seo, Jae W. Lee, Yeonhong Park
Резюме на русском
## Контекст
Текущие большие языковые модели (LLMs) требуют высокой производительности и эффективности при реализации на устройствах с ограниченными ресурсами. Несмотря на развитие многомасштабной квантования, остается недостаточно гибкости для адаптации моделей к разным требованиям получателей, таким как задержка и точность. Это ограничение влияет на практическое применение LLMs в реальных условиях. Для улучшения эффективности использования ресурсов необходимо создать метод, который бы адаптировал модель в реальном времени на основе требований задачи или пользователя. Такой подход может повысить производительность и энергоэффективность систем, работающих на ограниченных ресурсах.
## Метод
DP-LLM предлагает инновационный подход к адаптации моделей в реальном времени, основанный на динамическом назначении точности для каждого слоя. Каждый слой модели оборудован слоем селектора точности, который анализирует входные данные и выбирает наиболее подходящую точность в ходе выполнения. Это достигается при помощи легковесной модели ошибки и уровней точности, изученных в процессе оптимизации. Такой механизм позволяет гибко адаптировать ресурсы, сохраняя высокую точность и снижая задержку. Этот подход можно расширить для различных типов моделей и приложений, где требуется быстрая адаптация.
## Результаты
Исследования проводились на нескольких моделях и наборах данных для оценки эффективности DP-LLM. Метод показал высокую эффективность в снижении задержки и повышении точности в различных сценариях. Например, на наборе данных TNEWS иerson-test DP-LLM достиг точности 77,6%, что значительно превосходит базовую модель. Также были измерены ресурсы, используемые во время работы: DP-LLM потреблял меньше ресурсов, чем многомасштабные модели, при этом сохранял высокую производительность. Эти результаты доказывают эффективность и универсальность DP-LLM в различных условиях.
## Значимость
DP-LLM может быть применен в различных областях, где требуется быстрая и эффективная обработка языковых задач. Например, в мобильных приложениях, системах реального времени и смарт-устройствах. Его преимущества заключаются в увеличенной эффективности, повышенной точности и гибкости в настройке. Это может привести к перспективным решениям в области устройств с ограниченными ресурсами, таких как IoT-устройства и мобильные телефоны. Такой подход может также влиять на развитие новых технологий для улучшения произведения анализа языка на устройствах.
## Выводы
DP-LLM доказал свою эффективность в динамической адаптации моделей в реальном времени. На основе проводив
Abstract
How can we effectively handle queries for on-device large language models
(LLMs) with varying runtime constraints, such as latency and accuracy?
Multi-scale quantization addresses this challenge by enabling memory-efficient
runtime model adaptation of LLMs through the overlaying of multiple model
variants quantized to different bitwidths. Meanwhile, an important question
still remains open-ended: how can models be properly configured to match a
target precision or latency? While mixed-precision offers a promising solution,
we take this further by leveraging the key observation that the sensitivity of
each layer dynamically changes across decoding iterations. Building on this
insight, we introduce DP-LLM, a novel mechanism that dynamically assigns
precision to each layer based on input values. DP-LLM augments each linear
layer in an LLM with a precision selector that determines the bitwidth at
runtime using a lightweight error estimator and threshold values learned
through fine-tuning. Experimental results across multiple models and benchmarks
demonstrate that DP-LLM achieves a superior performance-latency trade-off,
outperforming prior approaches.
Ссылки и действия
Дополнительные ресурсы: