GDNSQ: Gradual Differentiable Noise Scale Quantization for Low-bit Neural Networks

2508.14004v1 cs.LG, cs.IT, cs.NA, math.IT, math.NA, 68T07, 90C26, I.2.6; E.4; G.1.6 2025-08-21

Авторы:

Sergey Salishev, Ian Akhremchik

Резюме на русском

## Контекст Quantized neural networks (QNNs) широко применяются в решении задач с предварительной обработкой данных, где необходимо минимизировать объем памяти и вычислительных ресурсов. Однако уменьшение bit-width внедряет избыточные ограничения на точность и скорость работы, так как каждый слой сети теряет часть информации при округлении. Есть необходимость в методах, позволяют градиантно оптимизировать процесс бит-width регулирования, уменьшая потери точности при повышении эффективности вычислений. Наличие этих проблем подчеркивает значимость разработки универсальных, достаточно устойчивых методов, которые позволят решать этот класс задач. ## Метод Методология GDNSQ (Gradual Differentiable Noise Scale Quantization) предлагает универсальную архитектуру для регулирования bit-width, используя параметры, такие как noise scale и clamp bounds. В этой модели используется для регулирования градиантного подхода Straight-Through Estimator (STE), который позволяет эффективно производить дифференцируемую оптимизацию. Кроме того, метод включает в себя функцию exterior-point penalty, которая задает жесткие ограничения на минимальную допустимую ширину бита. Наконец, в процессе тренировки используется механизм метрического сглаживания (distillation), чтобы повысить устойчивость тренировочной схемы к дискретным изменениям в регулировании. ## Результаты В ходе экспериментов были получены результаты, подтверждающие эффективность GDNSQ. Модель была применена к различным сетям, включая ResNet-50 и MobileNet, при небольших значениях bit-width (W1A1). Эксперименты показали, что производительность QNNs сохраняется при значительном уменьшении бит-width без существенных потерь точности. Также, модель успешно выполняет smooth optimization во время тренировки, что позволяет повысить степень generalization и уменьшить variance в результатах. ## Значимость Результаты GDNSQ допускают широкое применение в различных прикладных областях, таких как computer vision, NLP и другие задачи, требующие высокой эффективности работы с данными. Метод позволяет решать задачи с малым bit-width, не прибегая к тяжелым методам fine-tuning. Он также обеспечивает высокую степень устойчивости и может быть применен для решения задач в реальном времени с удовлетворительной точностью. ## Выводы GDNSQ представляет собой новый подход к регулированию bit-width в QNNs, который обеспечивает высокую точность и эффективность. Данный метод может быть успешно применен в различных областях исследований и приложениях, где требуется минимизация ресурсов при сохранении качества решения задач. В будущем, можно рассмотреть расширение модели для решения задач с более сложными данными и более высоким bit-width.

Abstract

Quantized neural networks can be viewed as a chain of noisy channels, where rounding in each layer reduces capacity as bit-width shrinks; the floating-point (FP) checkpoint sets the maximum input rate. We track capacity dynamics as the average bit-width decreases and identify resulting quantization bottlenecks by casting fine-tuning as a smooth, constrained optimization problem. Our approach employs a fully differentiable Straight-Through Estimator (STE) with learnable bit-width, noise scale and clamp bounds, and enforces a target bit-width via an exterior-point penalty; mild metric smoothing (via distillation) stabilizes training. Despite its simplicity, the method attains competitive accuracy down to the extreme W1A1 setting while retaining the efficiency of STE.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация