ART: Adaptive Resampling-based Training for Imbalanced Classification

2509.00955v1 cs.LG, cs.AI, stat.ML 2025-09-05
Авторы:

Arjun Basandrai, Shourya Jain, K. Ilanthenral

Резюме на русском

## Контекст Работа с несбалансированными классами — одна из самых сложных задач в области машинного обучения. Традиционные методы, такие как undersampling (выборка из меньшинства классов) и oversampling (повторение меньшинства классов), либо fixed resampling (фиксированная распределение классов), ориентируются на статические распределения и не учитывают динамики обучения. Эти методы могут ограничивать производительность модели, так как не учитывают изменения в класс-суровей механизм. ## Метод Предложенный метод Adaptive Resampling-based Training (ART) представляет собой адаптивный подход к обучению, который регулярно адаптирует распределение обучающих данных на основе класс-суровых F1-метрик. Эти метрики вычисляются в определенных промежутках времени, чтобы определить изменения в класс-суровой сложности обучения. ART сосредотачивается на классах, которые не получают достаточного внимания в обучении, и постепенно повышает их вклад в обучение модели. Это способствует более гармоничной процедуре обучения и улучшает общую производительность. ## Результаты Используя различные датасеты, такие как Pima Indians Diabetes и Yeast, ART продемонстрировал существенные улучшения по сравнению с традиционными методами, такими как SMOTE, NearMiss, и Cost-sensitive Learning. Эксперименты показали, что ART повышает macro F1-метрику на среднем 2.64 процентных пункта на табулярных датасетах (статистически значимые результаты по paired t-tests и Wilcoxon tests, p < 0.05). Также ART показал привлекательные результаты на текстовых и изображенийных данных. Это подтверждает, что ART является надежной платформой для обработки несбалансированных задач классификации. ## Значимость ART может использоваться в многих областях, таких как медицинская диагностика, анализ текстов и анализ изображений, где классы неравномерно распределены. Он предлагает значительные преимущества по сравнению с существующими методами, включая более точное моделирование, уменьшение влияния выбросов и улучшение общей производительности модели. Это может привести к более точным прогнозам и более эффективным решениям в различных сферах. ## Выводы Предложенный ART-подход показал свою эффективность в обработке несбалансированных задач классификации. Он устанавливает новый стандарт в этой области, предлагая более гибкий и динамичный метод, который учитывает изменения в класс-суровой сложности. Будущие исследования будут ориентированы на расширение применимости ART к более крупным и сложным датасетам, а также на создание более универсальных решений для обработки несбалансированных классов.

Abstract

Traditional resampling methods for handling class imbalance typically uses fixed distributions, undersampling the majority or oversampling the minority. These static strategies ignore changes in class-wise learning difficulty, which can limit the overall performance of the model. This paper proposes an Adaptive Resampling-based Training (ART) method that periodically updates the distribution of the training data based on the class-wise performance of the model. Specifically, ART uses class-wise macro F1 scores, computed at fixed intervals, to determine the degree of resampling to be performed. Unlike instance-level difficulty modeling, which is noisy and outlier-sensitive, ART adapts at the class level. This allows the model to incrementally shift its attention towards underperforming classes in a way that better aligns with the optimization objective. Results on diverse benchmarks, including Pima Indians Diabetes and Yeast dataset demonstrate that ART consistently outperforms both resampling-based and algorithm-level methods, including Synthetic Minority Oversampling Technique (SMOTE), NearMiss Undersampling, and Cost-sensitive Learning on binary as well as multi-class classification tasks with varying degrees of imbalance. In most settings, these improvements are statistically significant. On tabular datasets, gains are significant under paired t-tests and Wilcoxon tests (p < 0.05), while results on text and image tasks remain favorable. Compared to training on the original imbalanced data, ART improves macro F1 by an average of 2.64 percentage points across all tested tabular datasets. Unlike existing methods, whose performance varies by task, ART consistently delivers the strongest macro F1, making it a reliable choice for imbalanced classification.

Ссылки и действия