GDNSQ: Gradual Differentiable Noise Scale Quantization for Low-bit Neural Networks
2508.14004v1
cs.LG, cs.IT, cs.NA, math.IT, math.NA, 68T07, 90C26, I.2.6; E.4; G.1.6
2025-08-21
Авторы:
Sergey Salishev, Ian Akhremchik
Резюме на русском
## Контекст
Quantized neural networks (QNNs) широко применяются в решении задач с предварительной обработкой данных, где необходимо минимизировать объем памяти и вычислительных ресурсов. Однако уменьшение bit-width внедряет избыточные ограничения на точность и скорость работы, так как каждый слой сети теряет часть информации при округлении. Есть необходимость в методах, позволяют градиантно оптимизировать процесс бит-width регулирования, уменьшая потери точности при повышении эффективности вычислений. Наличие этих проблем подчеркивает значимость разработки универсальных, достаточно устойчивых методов, которые позволят решать этот класс задач.
## Метод
Методология GDNSQ (Gradual Differentiable Noise Scale Quantization) предлагает универсальную архитектуру для регулирования bit-width, используя параметры, такие как noise scale и clamp bounds. В этой модели используется для регулирования градиантного подхода Straight-Through Estimator (STE), который позволяет эффективно производить дифференцируемую оптимизацию. Кроме того, метод включает в себя функцию exterior-point penalty, которая задает жесткие ограничения на минимальную допустимую ширину бита. Наконец, в процессе тренировки используется механизм метрического сглаживания (distillation), чтобы повысить устойчивость тренировочной схемы к дискретным изменениям в регулировании.
## Результаты
В ходе экспериментов были получены результаты, подтверждающие эффективность GDNSQ. Модель была применена к различным сетям, включая ResNet-50 и MobileNet, при небольших значениях bit-width (W1A1). Эксперименты показали, что производительность QNNs сохраняется при значительном уменьшении бит-width без существенных потерь точности. Также, модель успешно выполняет smooth optimization во время тренировки, что позволяет повысить степень generalization и уменьшить variance в результатах.
## Значимость
Результаты GDNSQ допускают широкое применение в различных прикладных областях, таких как computer vision, NLP и другие задачи, требующие высокой эффективности работы с данными. Метод позволяет решать задачи с малым bit-width, не прибегая к тяжелым методам fine-tuning. Он также обеспечивает высокую степень устойчивости и может быть применен для решения задач в реальном времени с удовлетворительной точностью.
## Выводы
GDNSQ представляет собой новый подход к регулированию bit-width в QNNs, который обеспечивает высокую точность и эффективность. Данный метод может быть успешно применен в различных областях исследований и приложениях, где требуется минимизация ресурсов при сохранении качества решения задач. В будущем, можно рассмотреть расширение модели для решения задач с более сложными данными и более высоким bit-width.
Abstract
Quantized neural networks can be viewed as a chain of noisy channels, where
rounding in each layer reduces capacity as bit-width shrinks; the
floating-point (FP) checkpoint sets the maximum input rate. We track capacity
dynamics as the average bit-width decreases and identify resulting quantization
bottlenecks by casting fine-tuning as a smooth, constrained optimization
problem. Our approach employs a fully differentiable Straight-Through Estimator
(STE) with learnable bit-width, noise scale and clamp bounds, and enforces a
target bit-width via an exterior-point penalty; mild metric smoothing (via
distillation) stabilizes training. Despite its simplicity, the method attains
competitive accuracy down to the extreme W1A1 setting while retaining the
efficiency of STE.