Enhancing Credit Default Prediction Using Boruta Feature Selection and DBSCAN Algorithm with Different Resampling Techniques
2509.19408v1
cs.LG, stat.AP
2025-09-26
Авторы:
Obu-Amoah Ampomah, Edmund Agyemang, Kofi Acheampong, Louis Agyekum
Резюме на русском
## Контекст
Обработка кредитных дефолтов является ключевым аспектом в машинном обучении, особенно в области риск-менеджмента и финансового анализа. Данные об обслуживании кредитов часто склонны к несбалансированности, где клиенты со скрытыми дефолтами составляют минимальную часть общего количества данных. Это недостаток приводит к снижению точности моделей во время предсказания. Другая проблема заключается в выборе характеристик, которые могут негативно сказаться на качестве моделей. Из-за этого необходимо разработать эффективные методы для признакового отбора и методов балансировки данных для улучшения предсказаний кредитных дефолтов.
## Метод
Методология исследования включает в себя несколько шагов. В качестве начального этапа проводится базовое сравнение ML-моделей на необработанных данных для определения линии базы. Затем, для балансировки данных используются техники SMOTE, SMOTE-Tomek и ADASYN. Для признакового отбора используется метод Boruta, который позволяет выделить существенные признаки. Для извлечения выбросов применяется алгоритм DBSCAN. Наконец, несколько ML-классификаторов, включая XGBoost, AdaBoost, Gradient Boosting Machines (GBM) и Light GBM, обучаются на этих данных для оценки. Все модели оцениваются по таким показателям качества, как ROC-AUC, PR-AUC, G-mean и F1-score.
## Результаты
Исследование проводится на реальных данных об оценке кредитных дефолтов, доступных в репозитории University of Cleveland ML. Модель Boruta+DBSCAN+SMOTE-Tomek+GBM показала лучшие результаты среди всех моделей. Она достигла F1-score в 82.56%, G-mean в 82.98%, ROC-AUC в 90.90% и PR-AUC в 91.85%. Эти результаты превышают показатели других классификаторов и указывают на эффективность применения Boruta при отборе признаков, а также на выгоду от использования DBSCAN для обнаружения выбросов и SMOTE-Tomek для балансировки данных.
## Значимость
Изученные методы могут быть применены в различных сферах, таких как финансовый анализ, риск-менеджмент и кредитные оценки. Они предоставляют более точные и надёжные методы для прогнозирования кредитных дефолтов, что позволяет уменьшить риск ошибочных оценок и улучшить управление рисками. Это также может положительно сказаться на оптимизации процессов принятия решений в финансовых организациях.
## Выводы
Результаты исследования показывают, что методы Boruta для признакового отбора и DBSCAN для обнаружения выбросов эффективно могут быть использованы для улучшения предсказаний кредитных дефолтов. Будущие исследования могут сосредотачиваться на изучении других методов балансировки данных и расширении моделей для более сложных структур данных.
Abstract
This study examines credit default prediction by comparing three techniques,
namely SMOTE, SMOTE-Tomek, and ADASYN, that are commonly used to address the
class imbalance problem in credit default situations. Recognizing that credit
default datasets are typically skewed, with defaulters comprising a much
smaller proportion than non-defaulters, we began our analysis by evaluating
machine learning (ML) models on the imbalanced data without any resampling to
establish baseline performance. These baseline results provide a reference
point for understanding the impact of subsequent balancing methods. In addition
to traditional classifiers such as Naive Bayes and K-Nearest Neighbors (KNN),
our study also explores the suitability of advanced ensemble boosting
algorithms, including Extreme Gradient Boosting (XGBoost), AdaBoost, Gradient
Boosting Machines (GBM), and Light GBM for credit default prediction using
Boruta feature selection and DBSCAN-based outlier detection, both before and
after resampling. A real-world credit default data set sourced from the
University of Cleveland ML Repository was used to build ML classifiers, and
their performances were tested. The criteria chosen to measure model
performance are the area under the receiver operating characteristic curve
(ROC-AUC), area under the precision-recall curve (PR-AUC), G-mean, and
F1-scores. The results from this empirical study indicate that the
Boruta+DBSCAN+SMOTE-Tomek+GBM classifier outperformed the other ML models
(F1-score: 82.56%, G-mean: 82.98%, ROC-AUC: 90.90%, PR-AUC: 91.85%) in a credit
default context. The findings establish a foundation for future progress in
creating more resilient and adaptive credit default systems, which will be
essential as credit-based transactions continue to rise worldwide.
Ссылки и действия
Дополнительные ресурсы: