An Information-Theoretic Framework for Credit Risk Modeling: Unifying Industry Practice with Statistical Theory for Fair and Interpretable Scorecards

2509.09855v1 stat.ML, cs.LG 2025-09-16
Авторы:

Agus Sudjianto, Denis Burakov

Резюме на русском

## Контекст Область моделирования кредитного риска широко используется в финансовой индустрии для оценки кредитной рисковности и принятия решений о предоставлении кредитов. Однако существуют значительные проблемы, связанные с несоответствием между теоретической моделью и практическими потребностями. Одним из ключевых аспектов является необходимость сочетать высокую точность предсказаний с гарантией справедливости моделей. Несомненно, что индустрия широко применяет методы, такие как Weight of Evidence (WoE) и Information Value (IV) для эффективного принятия решений, однако их теоретические основы и взаимосвязь часто остаются неясными. Это мотивирует разработку информационно-теоретического подхода, который способен объединить теоретические и практические аспекты. ## Метод Мы разрабатываем информационно-теоретический фреймворк, который унифицирует широко используемые в кредитном моделировании метрики, такие как WoE, IV и Population Stability Index (PSI). Центральной идеей является доказательство того, что IV совпадает с PSI (Jeffreys divergence), вычисляемым между хорошими и плохими кредитными результатами в рамках одинаковых бинов. Для WoE мы применяем метод дельты, что позволяет вычислять стандартные ошибки для IV и PSI. Эти вычисления позволяют проводить гипотезы о справедливости и регулируемые моделирование. Мы также используем автоматическую биновую группировку с помощью деревьев XGBoost с глубиной 1 для сравнения различных стратегий кодирования. ## Результаты Мы проводим эксперименты с использованием различных наборов данных и сравниваем три стратегии кодирования: логистическую регрессию с одноголобных преобразованиями, WoE-трансформации и ограниченные модели XGBoost. В результате показано, что все три подхода демонстрируют примерно одинаковую точность предсказаний (AUC 0.82-0.84). Это подтверждает, что информационно-теоретическая биновка превышает выбор кодирования в том смысле, что она более оптимальна для достижения баланса между точностью и справедливостью. Мы также применяем mixed-integer programming для поиска Pareto-оптимальных решений, которые позволяют учитывать точность и справедливость в рамках неопределенности. ## Значимость Наша работа имеет значительную значимость в нескольких областях. Во-первых, она предоставляет теоретическую основу для широко используемых метрик в кредитном моделировании, таких как WoE, IV и PSI, объединяя их в единой информационно-теоретической модели. Во-вторых, она позволяет решать проблему балансировки точности и справедливости в моделировании, что особенно важно для регулируемых сред, таких как финансовый сектор. В-третьих,

Abstract

Credit risk modeling relies extensively on Weight of Evidence (WoE) and Information Value (IV) for feature engineering, and Population Stability Index (PSI) for drift monitoring, yet their theoretical foundations remain disconnected. We establish a unified information-theoretic framework revealing these industry-standard metrics as instances of classical information divergences. Specifically, we prove that IV exactly equals PSI (Jeffreys divergence) computed between good and bad credit outcomes over identical bins. Through the delta method applied to WoE transformations, we derive standard errors for IV and PSI, enabling formal hypothesis testing and probabilistic fairness constraints for the first time. We formalize credit modeling's inherent performance-fairness trade-off as maximizing IV for predictive power while minimizing IV for protected attributes. Using automated binning with depth-1 XGBoost stumps, we compare three encoding strategies: logistic regression with one-hot encoding, WoE transformation, and constrained XGBoost. All methods achieve comparable predictive performance (AUC 0.82-0.84), demonstrating that principled, information-theoretic binning outweighs encoding choice. Mixed-integer programming traces Pareto-efficient solutions along the performance-fairness frontier with uncertainty quantification. This framework bridges theory and practice, providing the first rigorous statistical foundation for widely-used credit risk metrics while offering principled tools for balancing accuracy and fairness in regulated environments.

Ссылки и действия