Scaling Laws for Task-Stratified Knowledge in Post-Training Quantized Large Language Models

2508.18609v2 cs.CL, cs.AI, cs.LG 2025-08-28
Авторы:

Chenxi Zhou, Pengfei Cao, Jiang Li, Jun Zhao, Kang Liu

Резюме на русском

## Контекст Large language models (LLMs) являются сложными и большими системами, способными обрабатывать и генерировать текст с высоким качеством. Однако их развертывание сталкивается с значительными проблемами, включая высокую стоимость и ресурсоемкость, особенно при работе на устройствах с ограниченным памятью и вычислительной мощностью. Post-training quantization (PTQ), или пост-тренировочный преобразование в низкого разрядности, предлагается как эффективный метод для уменьшения размера и повышения производительности моделей без значительного потери качества. Тем не менее, существуют ограниченные знания о том, как PTQ влияет на различные аспекты знаний модели, такие как память и использование. Более того, существующие модели знаний не учитывают специфических для PTQ параметров и задач. Целью данной работы является развитие точечных знаний о том, как PTQ влияет на LLM, и разработка таблиц знаний, которые позволят создавать более эффективные стратегии квантования. ## Метод Для изучения влияния PTQ на знания LLMs была разработана методология, которая включает в себя несколько ключевых этапов. Вначале был проведен тщательный эмпирический анализ различных моделей LLMs с разным количеством параметров и уровнями PTQ. Для каждой модели были измерены различные показатели, включая меморизацию и использование знаний. Далее, для оценки того, как PTQ влияет на каждый показатель, были разработаны метрики, которые позволяют измерить степень влияния PTQ на каждый из них. Наконец, был разработан объединенный фреймворк, который интегрирует модельный размер, эффективную бит-ширину, размер калибровочного набора и размер группы, чтобы предоставить комплексное понимание PTQ-специфических характеристик в различных задачах. ## Результаты Исследования показали, что PTQ значительно влияет на различные аспекты знаний моделей. Было выявлено, что уровень меморизации знаний очень чувствителен к изменениям в эффективной бит-ширине, размеру калибровочного набора и модельному размеру. Напротив, уровень использования знаний оказался намного менее чувствительным к этим изменениям. Это позволяет сделать вывод, что PTQ оказывает большее влияние на восприятие знаний, чем на их применение. Эти результаты были подтверждены экспериментально с помощью различных моделей и задач, подтверждая достоверность определенных тенденций. ## Значимость Полученные результаты имеют высокую значимость в различных областях применения LLMs. В первую очередь, они позволяют лучше понять, как PTQ влияет на различные аспекты знаний моделей и как эти изменения могут быть учитываны при разработке стратегий кван

Abstract

Large language models (LLMs) present significant deployment challenges due to their scale, with post-training quantization (PTQ) emerging as a practical compression solution. However, a comprehensive understanding of how PTQ precisely impacts diverse LLM knowledge capabilities remains elusive, and existing scaling laws for quantized models often overlook crucial PTQ-specific parameters and task-specific sensitivities. This paper addresses these gaps by conducting an extensive empirical investigation to establish task-stratified scaling laws. We disentangle LLM knowledge into memorization and utilization capabilities and develop a unified quantitative framework that incorporates model size, effective bit-width, calibration set size, and group size. Our central finding reveals that knowledge memorization exhibits markedly greater sensitivity to variations in effective bit-width, calibration set size, and model size compared to the more robust knowledge utilization. These findings offer a fine-grained understanding of PTQ's impact and provide guidance for developing knowledge-aware quantization strategies that can better preserve targeted cognitive functions.

Ссылки и действия