Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification
2509.11511v1
stat.ML, cs.LG
2025-09-17
Авторы:
Suman Cha, Hyunjoong Kim
Резюме на русском
#### Контекст
Исключительное диспропорциональное распределение классов в задачах классификации, известное как несбалансированная классификация, является значительной проблемой, особенно в таких областях как медицинская диагностика и обнаружение мошенничества. Традиционные преобразовательные методы, такие как SMOTE и его модификации, стремятся уменьшить дисбаланс, генерируя синтетические обучающие образцы в меньшем классе. Однако эти методы часто не могут ловко ловить глобальные данные в высокомерных пространствах. Нейросетевые модели, основанные на генеративно-критических архитектурах (GANs), предлагают более тонкое моделирование распределения, но часто сталкиваются с проблемами, такими как нестабильность обучения и убыточность модов. Нашу работу построили на этой проблеме, стремясь разработать более эффективный подход для уменьшения дисбаланса в данных.
#### Метод
Мы предлагаем новую фреймворк, который вырабатывает параметрическую трансформацию для преобразования меньшинственных образцов в образцы множественного класса. Метод основывается на минимизации максимального отклонения среднего (MMD), чтобы глобально скорректировать распределение преобразованных образцов к истинным образцам меньшинственного класса. Для улучшения граничной осознанности и локального моделирования, мы включили триплетную функцию потерь, которая направляет сгенерированные образцы в зоны границ классов. Эта комбинация позволяет нам создать более точные и сбалансированные данные для обучения модели классификации.
#### Результаты
Мы проверили нашу модель на 29 синтетических и реальных данныхсетах. Гипотеза, что наш подход может превосходить традиционные и генеративные методы, подтвердилась. Мы получили значительные улучшения по метрикам, таким как AUROC, G-mean, F1-score, и MCC. Эти результаты подтверждают, что наш фреймворк является эффективным, надежным и высокопроизводительным для решения задач несбалансированной классификации.
#### Значимость
Наше решение может быть применено в различных критически важных задачах, таких как диагностика медицинских заболеваний, финансовый мониторинг и обнаружение мошенничества. Оно предлагает высокую скорость и точность, а также простоту в реализации в существующих классификационных моделях. Будущие исследования будут нацелены на улучшение структуры преобразовательного пространства и исследование других модификаций триплетной функции потерь для улучшения точности в сложных классификационных задачах.
#### Выводы
Мы предложили мощный фреймворк для преобразования меньшинственных образцов
Abstract
Class imbalance in supervised classification often degrades model performance
by biasing predictions toward the majority class, particularly in critical
applications such as medical diagnosis and fraud detection. Traditional
oversampling techniques, including SMOTE and its variants, generate synthetic
minority samples via local interpolation but fail to capture global data
distributions in high-dimensional spaces. Deep generative models based on GANs
offer richer distribution modeling yet suffer from training instability and
mode collapse under severe imbalance. To overcome these limitations, we
introduce an oversampling framework that learns a parametric transformation to
map majority samples into the minority distribution. Our approach minimizes the
maximum mean discrepancy (MMD) between transformed and true minority samples
for global alignment, and incorporates a triplet loss regularizer to enforce
boundary awareness by guiding synthesized samples toward challenging borderline
regions. We evaluate our method on 29 synthetic and real-world datasets,
demonstrating consistent improvements over classical and generative baselines
in AUROC, G-mean, F1-score, and MCC. These results confirm the robustness,
computational efficiency, and practical utility of the proposed framework for
imbalanced classification tasks.
Ссылки и действия
Дополнительные ресурсы: