Convergence and Generalization of Anti-Regularization for Parametric Models
2508.17412v1
cs.LG, cs.AI, stat.ML
2025-08-27
Авторы:
Dongseok Kim, Wonjun Jeong, Gisung Oh
Резюме на русском
## Контекст
Область исследования фокусируется на типичных проблемах обучения моделей в условиях ограниченных данных и ресурсов. Существуют ситуации, когда ограниченный объем данных приводит к недообучению модели, что снижает её интерпретируемость и калибровку. Многие методы, направленные на повышение моделирования в таких условиях, либо неэффективны, либо приводят к переобучению. Мотивация для разработки Anti-Regularization (AR) заключается в том, чтобы найти баланс между повышением моделирования и уменьшением разброса модели в условиях недостатка данных.
## Метод
Anti-regularization предлагает добавить к функции потерь специальный термин, который корректирует модель, увеличивая её выразительность в условиях недостатка данных. Данная корректировка достигается путём добавления в целевую функцию термина, основанного на знаковым осцилляциях, который стимулирует модель в интервале малого объёма данных. Тем не менее, с ростом размера выборки, этот эффект автоматически приосативается за счёт использования закона воздействия степени, чтобы избежать переобучения. Для обеспечения устойчивости вводится проекционный градиентный метод с клиппингом, который регулирует аномальные значения в модели. Алгоритм построен на теории спектра моделей и базируется на условиях спектральной безопасности и регионах доверия.
## Результаты
На основе ряда экспериментов показано, что AR позволяет значительно повысить моделирование в условиях недостатка данных. Модель была протестирована на задачах регрессии и классификации, и результаты показали, что AR существенно сокращает подгонку модели к данным и улучшает калибровку. Данные эксперименты подтвердили, что уменьшение разброса модели в стадии обучения позволяет повысить её качество использования в реальных задачах. Также были проведены анализы абляции, подтвердившие значимость определённых компонент, таких как декремент степени и стабилизатор градиента.
## Значимость
AR может быть использован в ограниченных условиях для повышения качества обучения моделей в регрессионных и классификационных задачах. Его применимость продемонстрирована в различных моделях, включая линейные модели и модели с Neural Tangent Kernel (NTK). Основные преимущества AR заключаются в том, что он не только повышает моделирование, но и повышает калибровку модели, уменьшая риск переобучения. Также AR является простым в реализации и может быть интегрирован в существующий эмпирический цикл минимизации риска.
## Выводы
AR оказался эффективным в случаях недостатка данных, повышая выразительность моделей и снижая риск недообучения. Будущие исследования будут направлены на расширение AR на более
Abstract
We propose Anti-regularization (AR), which adds a sign-reversed reward term
to the loss to intentionally increase model expressivity in the small-sample
regime, and then attenuates this intervention with a power-law decay as the
sample size grows. We formalize spectral safety and trust-region conditions,
and design a lightweight stability safeguard that combines a projection
operator with gradient clipping, ensuring stable intervention under stated
assumptions. Our analysis spans linear smoothers and the Neural Tangent Kernel
(NTK) regime, providing practical guidance on selecting the decay exponent by
balancing empirical risk against variance. Empirically, AR reduces underfitting
while preserving generalization and improving calibration in both regression
and classification. Ablation studies confirm that the decay schedule and the
stability safeguard are critical to preventing overfitting and numerical
instability. We further examine a degrees-of-freedom targeting schedule that
keeps per-sample complexity approximately constant. AR is simple to implement
and reproducible, integrating cleanly into standard empirical risk minimization
pipelines. It enables robust learning in data- and resource-constrained
settings by intervening only when beneficial and fading away when unnecessary.
Ссылки и действия
Дополнительные ресурсы: