Calibration Meets Reality: Making Machine Learning Predictions Trustworthy

2509.23665v1 cs.LG, cs.AI, cs.IT, math.IT, math.PR 2025-10-01
Авторы:

Kristina P. Sinaga, Arjun S. Nair

Резюме на русском

## Контекст Post-hoc калибровка является важной методикой для улучшения доверительности прогнозов моделей машинного обучения. Она применяется для преобразования некорректных прогнозов модели в корректные вероятности. Несмотря на широкое распространение таких методов, их теоретическое понимание остается неполным, особенно при работе со сложными данными и архитектурами моделей. Одной из ключевых проблем является влияние качества признаков на калибровку. Ранее недостаточно уделялось внимания взаимосвязи между качеством признаков и калибровочными методами. В настоящей работе мы предлагаем глубокий анализ пост-хок калибровочных методов, включая Platt scaling и isotonic regression. ## Метод Мы используем теоретический подход для анализа воздействия качества признаков на работу методов калибровки. Основные технические решения заключаются в формализации метрик калибровки и их связи с информативностью признаков. Мы разрабатываем алгоритмы для синтетических и реальных данных, которые позволяют изучить работу калибровки в условиях различного качества данных. Экспериментом становится измерение калибровочных массивов для различных уровней информативности признаков. ## Результаты Мы проводим эксперименты на синтетических и реальных данных. На синтетических данных показывается, что информативность признаков сильно влияет на калибровочный результат. Если использовать только информативные признаки, то калибровочные методы показывают более высокую точность и доверительность. На реальных данных, включающих шумные признаки, мы отмечаем снижение калибровочной достоверности, однако методы isotonic regression и Platt scaling по-прежнему показывают лучшую устойчивость по сравнению с некалиброванной моделью. ## Значимость Наши результаты имеют большое значение для практического применения калибровочных методов в различных областях, таких как здравоохранение, финансы и технологии. Мы демонстрируем, что навык калибровки может быть особенно важен в ситуациях с недостаточной информативностью признаков. Также мы показываем, что isotonic regression и Platt scaling могут быть оптимизированы для работы в условиях высокого шума в признаках. Эти полученные результаты могут помочь в выборе подхода к калибровке в зависимости от задачи и конкретных данных. ## Выводы Мы демонстрируем, что качество признаков является ключевым фактором для успешной калибровки моделей машинного обучения. Наши результаты подчеркивают важность использования только информативных признаков и показывают, что isotonic regression и Platt scaling могут быть оптимальными в условиях высокой информативности. Будущие исследования будут сфокусированы на развитии более гибких и устойчивых методов кали

Abstract

Post-hoc calibration methods are widely used to improve the reliability of probabilistic predictions from machine learning models. Despite their prevalence, a comprehensive theoretical understanding of these methods remains elusive, particularly regarding their performance across different datasets and model architectures. Input features play a crucial role in shaping model predictions and, consequently, their calibration. However, the interplay between feature quality and calibration performance has not been thoroughly investigated. In this work, we present a rigorous theoretical analysis of post-hoc calibration methods, focusing on Platt scaling and isotonic regression. We derive convergence guarantees, computational complexity bounds, and finite-sample performance metrics for these methods. Furthermore, we explore the impact of feature informativeness on calibration performance through controlled synthetic experiments. Our empirical evaluation spans a diverse set of real-world datasets and model architectures, demonstrating consistent improvements in calibration metrics across various scenarios. By examining calibration performance under varying feature conditions utilizing only informative features versus complete feature spaces including noise dimensions, we provide fundamental insights into the robustness and reliability of different calibration approaches. Our findings offer practical guidelines for selecting appropriate calibration methods based on dataset characteristics and computational constraints, bridging the gap between theoretical understanding and practical implementation in uncertainty quantification. Code and experimental data are available at: https://github.com/Ajwebdevs/calibration-analysis-experiments.

Ссылки и действия