Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models
2508.03332v1
cs.LG, cs.AI
2025-08-06
Авторы:
He Xiao, Qingyao Yang, Dirui Xie, Wendong Xu, Wenyong Zhou, Haobo Liu, Zhengwu Liu, Ngai Wong
Резюме на русском
В статье рассматривается проблема эффективности информационного контента слоев в малых языковых моделях, где многие слои не несут значительного уникального вклада, но существенно влияют на память и энергопотребление во время вычислений. Для решения этой проблемы предлагается метод LieQ — метрический подход к пост-тренировочной квантизации, направленный на поддержание точности моделей менее 7 миллиардов параметров при крайне низкой битовой глубине. Метод основан на трех диагностических показателях: Perplexity Drop, Representational Compactness и Top-k Energy Gain, которые позволяют определить оптимальное распределение битовых ширин слоев без необходимости обновления градиентов. Эксперименты показывают, что LieQ достигает нового уровня сжатия-точности: для модели Qwen3-4B восстанавливается 95,9% производительности FP16 при 2,05-битной квантизации, превосходя GPTQ и AWQ на 19,7% и 18,1% соответственно. Для LLaMA3.2-3B достигается 98,2% точности при 2,07-битной квантизации, обеспечивая снижение потребления памяти в 4 раза. Эти результаты открывают новые возможности для развертывания малых языковых моделей на ресурсоограниченных устройствах.
Abstract
Large language models with billions of parameters are often over-provisioned:
many layers contribute little unique information yet dominate the memory and
energy footprint during inference. We present LieQ, a metric-driven
post-training quantization framework that addresses the critical challenge of
maintaining accuracy in sub-7B models under extreme low-bit compression. Our
method introduces three complementary layer-wise diagnostics-Perplexity Drop,
Representational Compactness, and Top-k Energy Gain -that reveal a canonical
division of labour across layers, enabling automatic bit-width allocation
without gradient updates. Unlike existing approaches that suffer severe
accuracy degradation at 2-3 bits precision, LieQ achieves state-of-the-art
compression-accuracy trade-offs: on Qwen3-4B, it recovers 95.9% of FP16
baseline performance at 2.05-bit quantization, outperforming GPTQ by 19.7% and
AWQ by 18.1% on average across seven zero-shot reasoning tasks. Applied to
LLaMA3.2-3B, LieQ maintains 98.2% of baseline accuracy at 2.07-bit precision
while enabling 4x memory reduction, establishing new paradigms for deploying
small language models on resource-constrained edge devices.
Ссылки и действия
Дополнительные ресурсы: