Calibration Meets Reality: Making Machine Learning Predictions Trustworthy
2509.23665v1
cs.LG, cs.AI, cs.IT, math.IT, math.PR
2025-10-01
Авторы:
Kristina P. Sinaga, Arjun S. Nair
Резюме на русском
## Контекст
Post-hoc калибровка является важной методикой для улучшения доверительности прогнозов моделей машинного обучения. Она применяется для преобразования некорректных прогнозов модели в корректные вероятности. Несмотря на широкое распространение таких методов, их теоретическое понимание остается неполным, особенно при работе со сложными данными и архитектурами моделей. Одной из ключевых проблем является влияние качества признаков на калибровку. Ранее недостаточно уделялось внимания взаимосвязи между качеством признаков и калибровочными методами. В настоящей работе мы предлагаем глубокий анализ пост-хок калибровочных методов, включая Platt scaling и isotonic regression.
## Метод
Мы используем теоретический подход для анализа воздействия качества признаков на работу методов калибровки. Основные технические решения заключаются в формализации метрик калибровки и их связи с информативностью признаков. Мы разрабатываем алгоритмы для синтетических и реальных данных, которые позволяют изучить работу калибровки в условиях различного качества данных. Экспериментом становится измерение калибровочных массивов для различных уровней информативности признаков.
## Результаты
Мы проводим эксперименты на синтетических и реальных данных. На синтетических данных показывается, что информативность признаков сильно влияет на калибровочный результат. Если использовать только информативные признаки, то калибровочные методы показывают более высокую точность и доверительность. На реальных данных, включающих шумные признаки, мы отмечаем снижение калибровочной достоверности, однако методы isotonic regression и Platt scaling по-прежнему показывают лучшую устойчивость по сравнению с некалиброванной моделью.
## Значимость
Наши результаты имеют большое значение для практического применения калибровочных методов в различных областях, таких как здравоохранение, финансы и технологии. Мы демонстрируем, что навык калибровки может быть особенно важен в ситуациях с недостаточной информативностью признаков. Также мы показываем, что isotonic regression и Platt scaling могут быть оптимизированы для работы в условиях высокого шума в признаках. Эти полученные результаты могут помочь в выборе подхода к калибровке в зависимости от задачи и конкретных данных.
## Выводы
Мы демонстрируем, что качество признаков является ключевым фактором для успешной калибровки моделей машинного обучения. Наши результаты подчеркивают важность использования только информативных признаков и показывают, что isotonic regression и Platt scaling могут быть оптимальными в условиях высокой информативности. Будущие исследования будут сфокусированы на развитии более гибких и устойчивых методов кали
Abstract
Post-hoc calibration methods are widely used to improve the reliability of
probabilistic predictions from machine learning models. Despite their
prevalence, a comprehensive theoretical understanding of these methods remains
elusive, particularly regarding their performance across different datasets and
model architectures. Input features play a crucial role in shaping model
predictions and, consequently, their calibration. However, the interplay
between feature quality and calibration performance has not been thoroughly
investigated. In this work, we present a rigorous theoretical analysis of
post-hoc calibration methods, focusing on Platt scaling and isotonic
regression. We derive convergence guarantees, computational complexity bounds,
and finite-sample performance metrics for these methods. Furthermore, we
explore the impact of feature informativeness on calibration performance
through controlled synthetic experiments. Our empirical evaluation spans a
diverse set of real-world datasets and model architectures, demonstrating
consistent improvements in calibration metrics across various scenarios. By
examining calibration performance under varying feature conditions utilizing
only informative features versus complete feature spaces including noise
dimensions, we provide fundamental insights into the robustness and reliability
of different calibration approaches. Our findings offer practical guidelines
for selecting appropriate calibration methods based on dataset characteristics
and computational constraints, bridging the gap between theoretical
understanding and practical implementation in uncertainty quantification. Code
and experimental data are available at:
https://github.com/Ajwebdevs/calibration-analysis-experiments.