Quantization through Piecewise-Affine Regularization: Optimization and Statistical Guarantees

2508.11112v1 cs.LG, cs.AI, math.OC, stat.ML 2025-08-19

Авторы:

Jianhao Ma, Lin Xiao

Резюме на русском

## Контекст Работа рассматривает задачу оптимизации задач классификации и регрессии, где принятие решений происходит в рамках квантованных или дискретных пространств. Такие задачи характеризуются высокой сложностью из-за ограниченности пространства решений и нетривиальной структуры оптимальных решений. Одним из подходов, позволяющим упростить решение таких задач, является использование **piecewise-affine regularization** (PAR), который предлагает моделировать квантование через линейные и аффинные преобразования. Авторы фокусируются на супервайзед-learning и исследуют теоретические основы PAR с точки зрения оптимизации и статистики. ## Метод Прототип метода PAR основывается на введении дополнительных регуляризационных термсов в функционал потерь, которые заставляют решение принимать дискретные значения. Авторы разрабатывают методы решения этого класса задач, включая проксимальные методы, адаптированные для PAR, и метод Альтернативных Направлений Множителей. Эти методы позволяют эффективно решать задачи, где входные данные и параметры модели имеют значительные размеры. ## Результаты Авторы проверяют свою теорию на задачах регрессии и классификации, в том числе в среде глубоких нейронных сетей. Изучая теоретические свойства решений, они доказывают, что надпараметрические модели, обученные с использованием PAR, обладают высоким уровнем дискретизации, что позволяет имитировать классические квантованные регуляризации (например, $\ell_1$-регуляризация и нелинейные модели). Эксперименты показывают высокую эффективность и скорость сходимости прототипа регуляризации в сравнении с другими методами. ## Значимость Предложенный подход имеет широкое применение в обучении моделей, где требуется уменьшить размер параметров без существенного потери точности. Например, в случае обучения нейронных сетей, PAR позволяет сократить размер модели, уменьшить потребление памяти и ускорить расчеты. Кроме того, PAR может использоваться в задачах, где требуется обеспечить высокую скорость работы модели в реальном времени. ## Выводы Работа устанавливает теоретические гарантии и практическую эффективность PAR в решении квантованных задач. Она демонстрирует перспективу использования PAR в супервайзед-learning и связанных областях, таких как глубокое обучение и машинное обучение с ограниченными ресурсами. Будущие исследования могут фокусироваться на расширении теории к более сложным моделям и задачам, а также на экспериментальных исследованиях в реальных сценариях применения.

Abstract

Optimization problems over discrete or quantized variables are very challenging in general due to the combinatorial nature of their search space. Piecewise-affine regularization (PAR) provides a flexible modeling and computational framework for quantization based on continuous optimization. In this work, we focus on the setting of supervised learning and investigate the theoretical foundations of PAR from optimization and statistical perspectives. First, we show that in the overparameterized regime, where the number of parameters exceeds the number of samples, every critical point of the PAR-regularized loss function exhibits a high degree of quantization. Second, we derive closed-form proximal mappings for various (convex, quasi-convex, and non-convex) PARs and show how to solve PAR-regularized problems using the proximal gradient method, its accelerated variant, and the Alternating Direction Method of Multipliers. Third, we study statistical guarantees of PAR-regularized linear regression problems; specifically, we can approximate classical formulations of $\ell_1$-, squared $\ell_2$-, and nonconvex regularizations using PAR and obtain similar statistical guarantees with quantized solutions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Quantization through Piecewise-Affine Regularization: Optimization and Statistical Guarantees

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ECPv2: Fast, Efficient, and Scalable Global Optimization of Lipschitz Functions

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalizatio...

Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batc...

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batc...

Навигация