Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models
2508.18609v2
cs.CL, cs.AI, cs.LG
2025-08-28
Авторы:
Chenxi Zhou, Pengfei Cao, Jiang Li, Jun Zhao, Kang Liu
Резюме на русском
## Контекст
Large language models (LLMs) являются сложными и большими системами, способными обрабатывать и генерировать текст с высоким качеством. Однако их развертывание сталкивается с значительными проблемами, включая высокую стоимость и ресурсоемкость, особенно при работе на устройствах с ограниченным памятью и вычислительной мощностью. Post-training quantization (PTQ), или пост-тренировочный преобразование в низкого разрядности, предлагается как эффективный метод для уменьшения размера и повышения производительности моделей без значительного потери качества. Тем не менее, существуют ограниченные знания о том, как PTQ влияет на различные аспекты знаний модели, такие как память и использование. Более того, существующие модели знаний не учитывают специфических для PTQ параметров и задач. Целью данной работы является развитие точечных знаний о том, как PTQ влияет на LLM, и разработка таблиц знаний, которые позволят создавать более эффективные стратегии квантования.
## Метод
Для изучения влияния PTQ на знания LLMs была разработана методология, которая включает в себя несколько ключевых этапов. Вначале был проведен тщательный эмпирический анализ различных моделей LLMs с разным количеством параметров и уровнями PTQ. Для каждой модели были измерены различные показатели, включая меморизацию и использование знаний. Далее, для оценки того, как PTQ влияет на каждый показатель, были разработаны метрики, которые позволяют измерить степень влияния PTQ на каждый из них. Наконец, был разработан объединенный фреймворк, который интегрирует модельный размер, эффективную бит-ширину, размер калибровочного набора и размер группы, чтобы предоставить комплексное понимание PTQ-специфических характеристик в различных задачах.
## Результаты
Исследования показали, что PTQ значительно влияет на различные аспекты знаний моделей. Было выявлено, что уровень меморизации знаний очень чувствителен к изменениям в эффективной бит-ширине, размеру калибровочного набора и модельному размеру. Напротив, уровень использования знаний оказался намного менее чувствительным к этим изменениям. Это позволяет сделать вывод, что PTQ оказывает большее влияние на восприятие знаний, чем на их применение. Эти результаты были подтверждены экспериментально с помощью различных моделей и задач, подтверждая достоверность определенных тенденций.
## Значимость
Полученные результаты имеют высокую значимость в различных областях применения LLMs. В первую очередь, они позволяют лучше понять, как PTQ влияет на различные аспекты знаний моделей и как эти изменения могут быть учитываны при разработке стратегий кван
Abstract
Large language models (LLMs) present significant deployment challenges due to
their scale, with post-training quantization (PTQ) emerging as a practical
compression solution. However, a comprehensive understanding of how PTQ
precisely impacts diverse LLM knowledge capabilities remains elusive, and
existing scaling laws for quantized models often overlook crucial PTQ-specific
parameters and task-specific sensitivities. This paper addresses these gaps by
conducting an extensive empirical investigation to establish task-stratified
scaling laws. We disentangle LLM knowledge into memorization and utilization
capabilities and develop a unified quantitative framework that incorporates
model size, effective bit-width, calibration set size, and group size. Our
central finding reveals that knowledge memorization exhibits markedly greater
sensitivity to variations in effective bit-width, calibration set size, and
model size compared to the more robust knowledge utilization. These findings
offer a fine-grained understanding of PTQ's impact and provide guidance for
developing knowledge-aware quantization strategies that can better preserve
targeted cognitive functions.
Ссылки и действия
Дополнительные ресурсы: