Beyond Rebalancing: Benchmarking Binary Classifiers Under Class Imbalance Without Rebalancing Techniques

2509.07605v1 cs.LG, cs.AI, cs.IT, math.IT 2025-09-11
Авторы:

Ali Nawaz, Amir Ahmad, Shehroz S. Khan

Резюме на русском

## Контекст Class imbalance является серьезной проблемой в обучении с учителем, особенно в критических областях, таких как медицинская диагностика и обнаружение аномалий. В таких ситуациях меньшинству класса, значится малое количество примеров, что существенно сказывается на качестве классификации. Несмотря на то, что многочисленные исследования сосредоточились на ребалансировочных методах, меньше внимания уделялось изучению поведения бинарных классификаторов в условиях неравновждности классов, когда такие методы не применяются. Цель нашего исследования — оценить поведение бинарных классификаторов "как есть", без применения техник ребалансировки, чтобы определить их настоящую силу и разброс. ## Метод Мы использовали систематический подход для оценки поведения различных бинарных классификаторов в условиях разной степени неравновждности классов. Для этого мы проводили эксперименты на обоих реальных и синтетических данных, включая сценарии одношота и февшота (одно или несколько примеров меньшинству классу). Также мы использовали синтетические данные с различными уровнями сложности делизионных границ, чтобы создать условия, близкие к реальным. Для сравнения мы включили не только традиционные методы классификации, но и технологии уменьшения выборки (undersampling), увеличения выборки (oversampling) и методы одноклассовой классификации (OCC). ## Результаты Наши эксперименты показали, что уменьшение размера меньшинству класса существенно ухудшает качество классификации для большинства традиционных классификаторов. Однако модели с высоким порогом обучения, такие как TabPFN и бустинг-базированные пакеты, оказались более устойчивыми к неравновждности и показали лучшую общую производительность. Объяснение этому можно найти в их более высокой генерализируемости и внедрении внутренних механизмов ребалансировки. Также мы выявили, что сложные данные, такие как те, что имеют сложные границы разделения, проявляются в условиях неравновждности классов еще сильнее. Эти находки подкрепляются исследованиями графических методов и метриками оценки. ## Значимость Наше исследование имеет значительное значение для выбора классификаторов в условиях неравновждности классов. Оно демонстрирует, что некоторые модели могут превосходить другие в трудных условиях без необходимости применения ребалансировочных техник. Это может иметь практическое значение в областях, где создание больших обучающих выборок для меньшинств классов сложно или невозможно. Кроме того, наши результаты могут способствовать развитию новых подходов к обучению с учителем

Abstract

Class imbalance poses a significant challenge to supervised classification, particularly in critical domains like medical diagnostics and anomaly detection where minority class instances are rare. While numerous studies have explored rebalancing techniques to address this issue, less attention has been given to evaluating the performance of binary classifiers under imbalance when no such techniques are applied. Therefore, the goal of this study is to assess the performance of binary classifiers "as-is", without performing any explicit rebalancing. Specifically, we systematically evaluate the robustness of a diverse set of binary classifiers across both real-world and synthetic datasets, under progressively reduced minority class sizes, using one-shot and few-shot scenarios as baselines. Our approach also explores varying data complexities through synthetic decision boundary generation to simulate real-world conditions. In addition to standard classifiers, we include experiments using undersampling, oversampling strategies, and one-class classification (OCC) methods to examine their behavior under severe imbalance. The results confirm that classification becomes more difficult as data complexity increases and the minority class size decreases. While traditional classifiers deteriorate under extreme imbalance, advanced models like TabPFN and boosting-based ensembles retain relatively higher performance and better generalization compared to traditional classifiers. Visual interpretability and evaluation metrics further validate these findings. Our work offers valuable guidance on model selection for imbalanced learning, providing insights into classifier robustness without dependence on explicit rebalancing techniques.

Ссылки и действия

Связанные статьи

Tackling Federated Unlearning as a Parameter Estimation Problem

## Контекст Современные технологии сталкиваются с вопросами защиты персональных данных и соблюдения законодательства в ...

2025-08-28

Contrastive ECOC: Learning Output Codes for Adversarial Defense

#### Контекст Многоклассовая классификация широко используется в различных областях, включая здравоохранение, обработку...

2025-08-16