Convergence and Generalization of Anti-Regularization for Parametric Models

2508.17412v1 cs.LG, cs.AI, stat.ML 2025-08-27

Авторы:

Dongseok Kim, Wonjun Jeong, Gisung Oh

Резюме на русском

## Контекст Область исследования фокусируется на типичных проблемах обучения моделей в условиях ограниченных данных и ресурсов. Существуют ситуации, когда ограниченный объем данных приводит к недообучению модели, что снижает её интерпретируемость и калибровку. Многие методы, направленные на повышение моделирования в таких условиях, либо неэффективны, либо приводят к переобучению. Мотивация для разработки Anti-Regularization (AR) заключается в том, чтобы найти баланс между повышением моделирования и уменьшением разброса модели в условиях недостатка данных. ## Метод Anti-regularization предлагает добавить к функции потерь специальный термин, который корректирует модель, увеличивая её выразительность в условиях недостатка данных. Данная корректировка достигается путём добавления в целевую функцию термина, основанного на знаковым осцилляциях, который стимулирует модель в интервале малого объёма данных. Тем не менее, с ростом размера выборки, этот эффект автоматически приосативается за счёт использования закона воздействия степени, чтобы избежать переобучения. Для обеспечения устойчивости вводится проекционный градиентный метод с клиппингом, который регулирует аномальные значения в модели. Алгоритм построен на теории спектра моделей и базируется на условиях спектральной безопасности и регионах доверия. ## Результаты На основе ряда экспериментов показано, что AR позволяет значительно повысить моделирование в условиях недостатка данных. Модель была протестирована на задачах регрессии и классификации, и результаты показали, что AR существенно сокращает подгонку модели к данным и улучшает калибровку. Данные эксперименты подтвердили, что уменьшение разброса модели в стадии обучения позволяет повысить её качество использования в реальных задачах. Также были проведены анализы абляции, подтвердившие значимость определённых компонент, таких как декремент степени и стабилизатор градиента. ## Значимость AR может быть использован в ограниченных условиях для повышения качества обучения моделей в регрессионных и классификационных задачах. Его применимость продемонстрирована в различных моделях, включая линейные модели и модели с Neural Tangent Kernel (NTK). Основные преимущества AR заключаются в том, что он не только повышает моделирование, но и повышает калибровку модели, уменьшая риск переобучения. Также AR является простым в реализации и может быть интегрирован в существующий эмпирический цикл минимизации риска. ## Выводы AR оказался эффективным в случаях недостатка данных, повышая выразительность моделей и снижая риск недообучения. Будущие исследования будут направлены на расширение AR на более

Abstract

We propose Anti-regularization (AR), which adds a sign-reversed reward term to the loss to intentionally increase model expressivity in the small-sample regime, and then attenuates this intervention with a power-law decay as the sample size grows. We formalize spectral safety and trust-region conditions, and design a lightweight stability safeguard that combines a projection operator with gradient clipping, ensuring stable intervention under stated assumptions. Our analysis spans linear smoothers and the Neural Tangent Kernel (NTK) regime, providing practical guidance on selecting the decay exponent by balancing empirical risk against variance. Empirically, AR reduces underfitting while preserving generalization and improving calibration in both regression and classification. Ablation studies confirm that the decay schedule and the stability safeguard are critical to preventing overfitting and numerical instability. We further examine a degrees-of-freedom targeting schedule that keeps per-sample complexity approximately constant. AR is simple to implement and reproducible, integrating cleanly into standard empirical risk minimization pipelines. It enables robust learning in data- and resource-constrained settings by intervening only when beneficial and fading away when unnecessary.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Convergence and Generalization of Anti-Regularization for Parametric Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация