Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos

2508.04853v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA, 68T07, 68W25, 62M45, 68Q25 2025-08-09
Авторы:

Haoyu Zhang, Shihao Zhang, Ian Colbert, Rayan Saab

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Квантование после обучения (Post-Training Quantization, PTQ) представляет собой критически важный инструмент для снижения вычислительных и памятных затрат современных глубоких нейронных сетей, особенно крупных языковых моделей (Large Language Models, LLMs). В условиях экспоненциального роста размеров моделей, где параметры измеряются десятками и сотнями миллиардов, необходимость в эффективных методах сжатия без значительной потери качества становится первостепенной задачей. Среди существующих PTQ-алгоритмов фреймворк OPTQ (также известный как GPTQ) занял лидирующее положение благодаря своей вычислительной эффективности и сильной эмпирической производительности. Однако несмотря на широкое распространение OPTQ в практических приложениях, методология страдает от фундаментального недостатка: отсутствия строгих количественных теоретических гарантий. Это создает значительную проблему для практиков и исследователей, поскольку невозможно заранее предсказать, насколько точно квантованная модель будет приближать поведение оригинальной модели. Отсутствие теоретической базы также затрудняет обоснование практических эвристик, таких как порядок обработки признаков или выбор параметров регуляризации, что приводит к необходимости проведения дорогостоящих экспериментов для настройки гиперпараметров. Кроме того, современные PTQ-алгоритмы, включая Qronos - более современный метод, продемонстрировавший улучшенную эмпирическую производительность, также страдают от аналогичного недостатка теоретического обоснования. Это создает пробел между теорией и практикой, препятствуя систематическому улучшению методов квантования и ограничивая возможность их надежного применения в критически важных приложениях, где требуется строгий контроль над точностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют первый в своем роде количественный теоретический анализ OPTQ и связанных методов, предоставляя строгие гарантии ошибок для как детерминированных, так и стохастических вариантов алгоритма. Методология анализа строится на систематическом исследовании того, как итеративная процедура OPTQ накапливает квантовую ошибку на каждом шаге оптимизации. Ключевым элементом предложенного подхода является вывод неасимптотических оценок ошибки в 2-норме, которые явным образом зависят от калибровочных данных и параметра регуляризации, используемого в OPTQ. Это достигается через разложение общей ошибки квантования на отдельные компоненты, каждый из которых анализируется с использованием методов матричного анализа и теории аппроксимации. Особое внимание уделяется анализу эффекта упорядочивания признаков по убывающей норме - эвристики, широко используемой на практике, но до сих пор не имеющей теоретического обоснования. Для стохастического варианта алгоритма авторы устанавливают более сильные границы ошибки в infinity-норме, что позволяет контролировать необходимый алфавит квантования и особенно полезно для последующих слоев и нелинейностей. Анализ включает разработку новых вероятностных инструментов для оценки распределения ошибок квантования в многомерном пространстве, учитывающих корреляционную структуру весов. Расширение анализа на Qronos включает адаптацию разработанной методологии к специфическим особенностям этого алгоритма, включая его подход к обработке групп весов и использованию дополнительных оптимизационных техник. Это позволяет объяснить эмпирические преимущества Qronos через призму теоретических гарантий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть работы фокусируется на эмпирической валидации полученных теоретических границ через систематическое исследование поведения ошибок квантования на различных архитектурах нейронных сетей и наборах данных. Исследование охватывает как классические сверточные сети (ResNet, VGG), так и современные трансформерные модели, включая BERT и GPT-семейство, что обеспечивает комплексное понимание применимости теоретических результатов. Для валидации 2-норм границ используются синтетические и реальные калибровочные наборы данных различного размера, позволяющие исследовать зависимость ошибки квантования от объема калибровочных данных. Результаты дем

Abstract

Post-training quantization (PTQ) has become a crucial tool for reducing the memory and compute costs of modern deep neural networks, including large language models (LLMs). Among PTQ algorithms, the OPTQ framework-also known as GPTQ-has emerged as a leading method due to its computational efficiency and strong empirical performance. Despite its widespread adoption, however, OPTQ lacks rigorous quantitative theoretical guarantees. This paper presents the first quantitative error bounds for both deterministic and stochastic variants of OPTQ, as well as for Qronos, a recent related state-of-the-art PTQ algorithm. We analyze how OPTQ's iterative procedure induces quantization error and derive non-asymptotic 2-norm error bounds that depend explicitly on the calibration data and a regularization parameter that OPTQ uses. Our analysis provides theoretical justification for several practical design choices, including the widely used heuristic of ordering features by decreasing norm, as well as guidance for selecting the regularization parameter. For the stochastic variant, we establish stronger infinity-norm error bounds, which enable control over the required quantization alphabet and are particularly useful for downstream layers and nonlinearities. Finally, we extend our analysis to Qronos, providing new theoretical bounds, for both its deterministic and stochastic variants, that help explain its empirical advantages.

Ссылки и действия