Enhancing Credit Default Prediction Using Boruta Feature Selection and DBSCAN Algorithm with Different Resampling Techniques

2509.19408v1 cs.LG, stat.AP 2025-09-26
Авторы:

Obu-Amoah Ampomah, Edmund Agyemang, Kofi Acheampong, Louis Agyekum

Резюме на русском

## Контекст Обработка кредитных дефолтов является ключевым аспектом в машинном обучении, особенно в области риск-менеджмента и финансового анализа. Данные об обслуживании кредитов часто склонны к несбалансированности, где клиенты со скрытыми дефолтами составляют минимальную часть общего количества данных. Это недостаток приводит к снижению точности моделей во время предсказания. Другая проблема заключается в выборе характеристик, которые могут негативно сказаться на качестве моделей. Из-за этого необходимо разработать эффективные методы для признакового отбора и методов балансировки данных для улучшения предсказаний кредитных дефолтов. ## Метод Методология исследования включает в себя несколько шагов. В качестве начального этапа проводится базовое сравнение ML-моделей на необработанных данных для определения линии базы. Затем, для балансировки данных используются техники SMOTE, SMOTE-Tomek и ADASYN. Для признакового отбора используется метод Boruta, который позволяет выделить существенные признаки. Для извлечения выбросов применяется алгоритм DBSCAN. Наконец, несколько ML-классификаторов, включая XGBoost, AdaBoost, Gradient Boosting Machines (GBM) и Light GBM, обучаются на этих данных для оценки. Все модели оцениваются по таким показателям качества, как ROC-AUC, PR-AUC, G-mean и F1-score. ## Результаты Исследование проводится на реальных данных об оценке кредитных дефолтов, доступных в репозитории University of Cleveland ML. Модель Boruta+DBSCAN+SMOTE-Tomek+GBM показала лучшие результаты среди всех моделей. Она достигла F1-score в 82.56%, G-mean в 82.98%, ROC-AUC в 90.90% и PR-AUC в 91.85%. Эти результаты превышают показатели других классификаторов и указывают на эффективность применения Boruta при отборе признаков, а также на выгоду от использования DBSCAN для обнаружения выбросов и SMOTE-Tomek для балансировки данных. ## Значимость Изученные методы могут быть применены в различных сферах, таких как финансовый анализ, риск-менеджмент и кредитные оценки. Они предоставляют более точные и надёжные методы для прогнозирования кредитных дефолтов, что позволяет уменьшить риск ошибочных оценок и улучшить управление рисками. Это также может положительно сказаться на оптимизации процессов принятия решений в финансовых организациях. ## Выводы Результаты исследования показывают, что методы Boruta для признакового отбора и DBSCAN для обнаружения выбросов эффективно могут быть использованы для улучшения предсказаний кредитных дефолтов. Будущие исследования могут сосредотачиваться на изучении других методов балансировки данных и расширении моделей для более сложных структур данных.

Abstract

This study examines credit default prediction by comparing three techniques, namely SMOTE, SMOTE-Tomek, and ADASYN, that are commonly used to address the class imbalance problem in credit default situations. Recognizing that credit default datasets are typically skewed, with defaulters comprising a much smaller proportion than non-defaulters, we began our analysis by evaluating machine learning (ML) models on the imbalanced data without any resampling to establish baseline performance. These baseline results provide a reference point for understanding the impact of subsequent balancing methods. In addition to traditional classifiers such as Naive Bayes and K-Nearest Neighbors (KNN), our study also explores the suitability of advanced ensemble boosting algorithms, including Extreme Gradient Boosting (XGBoost), AdaBoost, Gradient Boosting Machines (GBM), and Light GBM for credit default prediction using Boruta feature selection and DBSCAN-based outlier detection, both before and after resampling. A real-world credit default data set sourced from the University of Cleveland ML Repository was used to build ML classifiers, and their performances were tested. The criteria chosen to measure model performance are the area under the receiver operating characteristic curve (ROC-AUC), area under the precision-recall curve (PR-AUC), G-mean, and F1-scores. The results from this empirical study indicate that the Boruta+DBSCAN+SMOTE-Tomek+GBM classifier outperformed the other ML models (F1-score: 82.56%, G-mean: 82.98%, ROC-AUC: 90.90%, PR-AUC: 91.85%) in a credit default context. The findings establish a foundation for future progress in creating more resilient and adaptive credit default systems, which will be essential as credit-based transactions continue to rise worldwide.

Ссылки и действия