Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification

2509.11511v1 stat.ML, cs.LG 2025-09-17
Авторы:

Suman Cha, Hyunjoong Kim

Резюме на русском

#### Контекст Исключительное диспропорциональное распределение классов в задачах классификации, известное как несбалансированная классификация, является значительной проблемой, особенно в таких областях как медицинская диагностика и обнаружение мошенничества. Традиционные преобразовательные методы, такие как SMOTE и его модификации, стремятся уменьшить дисбаланс, генерируя синтетические обучающие образцы в меньшем классе. Однако эти методы часто не могут ловко ловить глобальные данные в высокомерных пространствах. Нейросетевые модели, основанные на генеративно-критических архитектурах (GANs), предлагают более тонкое моделирование распределения, но часто сталкиваются с проблемами, такими как нестабильность обучения и убыточность модов. Нашу работу построили на этой проблеме, стремясь разработать более эффективный подход для уменьшения дисбаланса в данных. #### Метод Мы предлагаем новую фреймворк, который вырабатывает параметрическую трансформацию для преобразования меньшинственных образцов в образцы множественного класса. Метод основывается на минимизации максимального отклонения среднего (MMD), чтобы глобально скорректировать распределение преобразованных образцов к истинным образцам меньшинственного класса. Для улучшения граничной осознанности и локального моделирования, мы включили триплетную функцию потерь, которая направляет сгенерированные образцы в зоны границ классов. Эта комбинация позволяет нам создать более точные и сбалансированные данные для обучения модели классификации. #### Результаты Мы проверили нашу модель на 29 синтетических и реальных данныхсетах. Гипотеза, что наш подход может превосходить традиционные и генеративные методы, подтвердилась. Мы получили значительные улучшения по метрикам, таким как AUROC, G-mean, F1-score, и MCC. Эти результаты подтверждают, что наш фреймворк является эффективным, надежным и высокопроизводительным для решения задач несбалансированной классификации. #### Значимость Наше решение может быть применено в различных критически важных задачах, таких как диагностика медицинских заболеваний, финансовый мониторинг и обнаружение мошенничества. Оно предлагает высокую скорость и точность, а также простоту в реализации в существующих классификационных моделях. Будущие исследования будут нацелены на улучшение структуры преобразовательного пространства и исследование других модификаций триплетной функции потерь для улучшения точности в сложных классификационных задачах. #### Выводы Мы предложили мощный фреймворк для преобразования меньшинственных образцов

Abstract

Class imbalance in supervised classification often degrades model performance by biasing predictions toward the majority class, particularly in critical applications such as medical diagnosis and fraud detection. Traditional oversampling techniques, including SMOTE and its variants, generate synthetic minority samples via local interpolation but fail to capture global data distributions in high-dimensional spaces. Deep generative models based on GANs offer richer distribution modeling yet suffer from training instability and mode collapse under severe imbalance. To overcome these limitations, we introduce an oversampling framework that learns a parametric transformation to map majority samples into the minority distribution. Our approach minimizes the maximum mean discrepancy (MMD) between transformed and true minority samples for global alignment, and incorporates a triplet loss regularizer to enforce boundary awareness by guiding synthesized samples toward challenging borderline regions. We evaluate our method on 29 synthetic and real-world datasets, demonstrating consistent improvements over classical and generative baselines in AUROC, G-mean, F1-score, and MCC. These results confirm the robustness, computational efficiency, and practical utility of the proposed framework for imbalanced classification tasks.

Ссылки и действия