ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms
2509.09679v1
cs.LG, cs.AI, cs.CL
2025-09-13
Авторы:
Bingxin Xu, Zhen Dong, Oussama Elachqar, Yuzhang Shang
Резюме на русском
## Контекст
Современные большие языковые модели (LLM) требуют огромных объемов памяти для хранения их весов, что существенно ограничивает возможности их развертывания на устройствах потребительского уровня. Наиболее эффективным способом снижения потребления памяти является метод квантования (quantization), который снижает точность численных вычислений. Однако квантование до уровня 2-бит (2-bit quantization) приводит к существенному потери качества, так как многие активации являются выбросами (outliers), которые оказывают негативное влияние на последующие слои. Для решения этой проблемы были предложены методы, основанные на ортогональных преобразованиях (rotation-based methods), например, QuIP и QuaRot. Они используют ортогональные матрицы для оптимизации того, как данные трансформируются перед квантованием. Тем не менее, эти преобразования используют фиксированные матрицы (например, матрицы Хадамарда), которые не могут адаптироваться к конкретным характеристикам весов моделей. Мы заметили, что разные слои модели имеют разные характеристики выбросов, что делает необходимым разработку более гибких, слойно-адаптивных методов.
## Метод
Мы предлагаем ButterflyQuant, новый метод квантования, который заменяет фиксированные ортогональные преобразования (такие как матрицы Хадамарда) на **обучаемые преобразования Баттерфляй (Butterfly transforms)**. В отличие от матриц Хадамарда, которые имеют дискретные коэффициенты $\{+1, -1\}$ (которые нельзя использовать для обучения с помощью градиентных методов), преобразования Баттерфляй определяются непрерывными параметрами в виде углов Гивенса. Эти углы могут быть изменены с помощью процесса обучения, что позволяет гораздо лучше адаптироваться к характеристикам весов модели. Мы также добавляем регуляризацию, нацеленную на обеспечение устойчивости к выбросам, чтобы обеспечить лучшую квантовую точность. Мы доказали, что наш метод оптимален в теоретическом плане, так как он обеспечивает гарантии подавления выбросов с помощью ортогональных преобразований и имеет высокую эффективность (сложность $O(n \log n)$). Метод требует малого количества данных для калибровки (только 128 примеров) и быстро обучается на одном GPU.
## Результаты
Мы провели эксперименты на модели LLaMA-2-7B с квантованием до уровня 2-бит. Мы сравнили ButterflyQuant с QuaRot, который является одним из лучших методов в этой области. Наши результаты показали, что ButterflyQuant порождает значительно меньшие потери качества, с 15.4 в точности (perplexity) по сравнению с 22.1 для QuaRot. Это свидетельствует о значительном превосходстве нашего м
Abstract
Large language models require massive memory footprints, severely limiting
deployment on consumer hardware. Quantization reduces memory through lower
numerical precision, but extreme 2-bit quantization suffers from catastrophic
performance loss due to outliers in activations. Rotation-based methods such as
QuIP and QuaRot apply orthogonal transforms to eliminate outliers before
quantization, using computational invariance: $\mathbf{y} = \mathbf{Wx} =
(\mathbf{WQ}^T)(\mathbf{Qx})$ for orthogonal $\mathbf{Q}$. However, these
methods use fixed transforms--Hadamard matrices achieving optimal worst-case
coherence $\mu = 1/\sqrt{n}$--that cannot adapt to specific weight
distributions. We identify that different transformer layers exhibit distinct
outlier patterns, motivating layer-adaptive rotations rather than
one-size-fits-all approaches. We propose ButterflyQuant, which replaces
Hadamard rotations with learnable butterfly transforms parameterized by
continuous Givens rotation angles. Unlike Hadamard's discrete $\{+1, -1\}$
entries that are non-differentiable and prohibit gradient-based learning,
butterfly transforms' continuous parameterization enables smooth optimization
while guaranteeing orthogonality by construction. This orthogonal constraint
ensures theoretical guarantees in outlier suppression while achieving $O(n \log
n)$ computational complexity with only $\frac{n \log n}{2}$ learnable
parameters. We further introduce a uniformity regularization on
post-transformation activations to promote smoother distributions amenable to
quantization. Learning requires only 128 calibration samples and converges in
minutes on a single GPU--a negligible one-time cost. On LLaMA-2-7B with 2-bit
quantization, ButterflyQuant achieves 15.4 perplexity versus 22.1 for QuaRot.
Ссылки и действия
Дополнительные ресурсы: