Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models
2508.17761v1
cs.LG, stat.ML, 68T37, 68T07, 62P30, 62G07, 62F15, I.2.6; G.3; I.5.1
2025-08-27
Авторы:
Jelke Wibbeke, Nico Schönfisch, Sebastian Rohjans, Andreas Rauh
Резюме на русском
## Контекст
В сегменте прикладных решений, требующих гарантированной надежности и точности, данные-опирающиеся модели должны не только точно прогнозировать, но и оценивать свою собственную неопределенность. Эта характеристика, называемая калибровкой, является критической для основания рискованных решений. В регрессии широко развит комплекс метрик и методов калибровки, которые предназначены для достижения этой цели. Однако метрики калибровки отличаются по определению, предпосылкам и масштабам, что создает проблемы при интерпретации и сравнении результатов из разных исследований. Более того, многие методы калибровки были протестированы только на ограниченном наборе метрик, что не позволяет судить о габаритах их улучшений в разных контекстах. Работа предлагает систематическую классификацию метрик калибровки, извлеченных из ранее опубликованных работ, и их независимую оценку в условиях стандартных экспериментов с настоящими, синтетическими и специально искаженными данными. Это позволяет выявить области, где метрики дают несогласованные или противоречивые результаты, что может привести к неправильным выводам в процессе рекалибровки.
## Метод
В работе использована систематическая классификация и обобщение метрик калибровки, извлеченных из литературы. Были проанализированы широкий спектл метрик, включая статистические меры как Expected Normalized Calibration Error (ENCE), так и критерии, основанные на простоте, такие как Coverage Width-based Criterion (CWC). Для проверки этих метрик были проведены эксперименты с реальными, синтетическими и подделанными данными, которые имитируют различные ситуации некорректной калибровки. Для каждой метрики была определена ее значимость и точность в оценке калибровки моделей. Эта методология позволила создать объективный бенчмарк для сравнения различных методов калибровки и их метрик.
## Результаты
Эксперименты показали, что многие метрики калибровки дают противоречивые результаты при оценке одних и тех же результатов. Например, ENCE и CWC приводят к разным выводам о качестве рекалибровки, что может привести к неточностям при принятии решений. Было обнаружено, что некоторые метрики дают высокую оценку калибровки для моделей, которые на самом деле некорректно оценивают неопределенность. Это свидетельствует о сильных конфликтах между метриками, которые могут использоваться для "выбора подходящих результатов" в зависимости от их определения. В целом, было установлено, что ENCE и CWC показали себя как наиболее надежные метрики в этом квадрате, но даже они не являются идеальными и не всегда сходятся в оценках.
## Значимость
Результаты работы имеют практическое значение для разрабо
Abstract
In safety-critical applications data-driven models must not only be accurate
but also provide reliable uncertainty estimates. This property, commonly
referred to as calibration, is essential for risk-aware decision-making. In
regression a wide variety of calibration metrics and recalibration methods have
emerged. However, these metrics differ significantly in their definitions,
assumptions and scales, making it difficult to interpret and compare results
across studies. Moreover, most recalibration methods have been evaluated using
only a small subset of metrics, leaving it unclear whether improvements
generalize across different notions of calibration. In this work, we
systematically extract and categorize regression calibration metrics from the
literature and benchmark these metrics independently of specific modelling
methods or recalibration approaches. Through controlled experiments with
real-world, synthetic and artificially miscalibrated data, we demonstrate that
calibration metrics frequently produce conflicting results. Our analysis
reveals substantial inconsistencies: many metrics disagree in their evaluation
of the same recalibration result, and some even indicate contradictory
conclusions. This inconsistency is particularly concerning as it potentially
allows cherry-picking of metrics to create misleading impressions of success.
We identify the Expected Normalized Calibration Error (ENCE) and the Coverage
Width-based Criterion (CWC) as the most dependable metrics in our tests. Our
findings highlight the critical role of metric selection in calibration
research.