Fairy$\pm i$: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$
2508.05571v1
cs.LG, cs.CL
2025-08-09
Авторы:
Feiyu Wang, Guoan Wang, Yihao Zhang, Shengfan Wang, Weitao Li, Bokai Huang, Shimao Chen, Zihan Jiang, Rui Xu, Tong Yang
Резюме на русском
Активный исследовательский потенциал в области низкобитных моделей языковых моделей лежит в развитии Quantization-Aware Training (QAT), которое включает в себя квантизацию во время обучения. Однако существующие подходы ограничиваются улучшением точности квантизации в рамках upper bound, задаваемого точностью полного точности (accuracy ceiling). Данная работа предлагает революционную методологию, позволяющую сдвинуть этот upper bound и достичь новой точности, потому что всякий раз, когда мы квантизируем full-precision model, мы уже оптимизируем ему его точность. Авторы представляют Fairy$\pm i$, первую 2-битную квантизационную модель для complex-valued LLMs. Она использует симметричность и информационную оптимальность 2-битной системы вещественных чисел $\{\pm1, \pm i\}$, что позволяет воспроизводить сложность информационного пространства с минимумом компьютерных операций. Эксперименты показывают, что Fairy$\pm i$ не только способна выйти за пределы существующих 2-битных моделей, но и достигает высокой точности и эффективности, в то же время гарантируя низкий расход ресурсов. Это действительно новая дирекция для развития highly accurate, practical LLMs.
Abstract
Quantization-Aware Training (QAT) integrates quantization into the training
loop, enabling LLMs to learn robust low-bit representations, and is widely
recognized as one of the most promising research directions. All current QAT
research focuses on minimizing quantization error on full-precision models,
where the full-precision accuracy acts as an upper bound (accuracy ceiling). No
existing method has even attempted to surpass this ceiling. To break this
ceiling, we propose a new paradigm: raising the ceiling (full-precision model),
and then still quantizing it efficiently into 2 bits. We propose Fairy$\pm i$,
the first 2-bit quantization framework for complex-valued LLMs. Specifically,
our method leverages the representational advantages of the complex domain to
boost full-precision accuracy. We map weights to the fourth roots of unity
$\{\pm1, \pm i\}$, forming a perfectly symmetric and information-theoretically
optimal 2-bit representation. Importantly, each quantized weight has either a
zero real or imaginary part, enabling multiplication-free inference using only
additions and element swaps. Experimental results show that Fairy$\pm i$
outperforms the ceiling of existing 2-bit quantization approaches in terms of
both PPL and downstream tasks, while maintaining strict storage and compute
efficiency. This work opens a new direction for building highly accurate and
practical LLMs under extremely low-bit constraints.
Ссылки и действия
Дополнительные ресурсы: