Evaluating the Quality of the Quantified Uncertainty for (Re)Calibration of Data-Driven Regression Models

2508.17761v1 cs.LG, stat.ML, 68T37, 68T07, 62P30, 62G07, 62F15, I.2.6; G.3; I.5.1 2025-08-27
Авторы:

Jelke Wibbeke, Nico Schönfisch, Sebastian Rohjans, Andreas Rauh

Резюме на русском

## Контекст В сегменте прикладных решений, требующих гарантированной надежности и точности, данные-опирающиеся модели должны не только точно прогнозировать, но и оценивать свою собственную неопределенность. Эта характеристика, называемая калибровкой, является критической для основания рискованных решений. В регрессии широко развит комплекс метрик и методов калибровки, которые предназначены для достижения этой цели. Однако метрики калибровки отличаются по определению, предпосылкам и масштабам, что создает проблемы при интерпретации и сравнении результатов из разных исследований. Более того, многие методы калибровки были протестированы только на ограниченном наборе метрик, что не позволяет судить о габаритах их улучшений в разных контекстах. Работа предлагает систематическую классификацию метрик калибровки, извлеченных из ранее опубликованных работ, и их независимую оценку в условиях стандартных экспериментов с настоящими, синтетическими и специально искаженными данными. Это позволяет выявить области, где метрики дают несогласованные или противоречивые результаты, что может привести к неправильным выводам в процессе рекалибровки. ## Метод В работе использована систематическая классификация и обобщение метрик калибровки, извлеченных из литературы. Были проанализированы широкий спектл метрик, включая статистические меры как Expected Normalized Calibration Error (ENCE), так и критерии, основанные на простоте, такие как Coverage Width-based Criterion (CWC). Для проверки этих метрик были проведены эксперименты с реальными, синтетическими и подделанными данными, которые имитируют различные ситуации некорректной калибровки. Для каждой метрики была определена ее значимость и точность в оценке калибровки моделей. Эта методология позволила создать объективный бенчмарк для сравнения различных методов калибровки и их метрик. ## Результаты Эксперименты показали, что многие метрики калибровки дают противоречивые результаты при оценке одних и тех же результатов. Например, ENCE и CWC приводят к разным выводам о качестве рекалибровки, что может привести к неточностям при принятии решений. Было обнаружено, что некоторые метрики дают высокую оценку калибровки для моделей, которые на самом деле некорректно оценивают неопределенность. Это свидетельствует о сильных конфликтах между метриками, которые могут использоваться для "выбора подходящих результатов" в зависимости от их определения. В целом, было установлено, что ENCE и CWC показали себя как наиболее надежные метрики в этом квадрате, но даже они не являются идеальными и не всегда сходятся в оценках. ## Значимость Результаты работы имеют практическое значение для разрабо

Abstract

In safety-critical applications data-driven models must not only be accurate but also provide reliable uncertainty estimates. This property, commonly referred to as calibration, is essential for risk-aware decision-making. In regression a wide variety of calibration metrics and recalibration methods have emerged. However, these metrics differ significantly in their definitions, assumptions and scales, making it difficult to interpret and compare results across studies. Moreover, most recalibration methods have been evaluated using only a small subset of metrics, leaving it unclear whether improvements generalize across different notions of calibration. In this work, we systematically extract and categorize regression calibration metrics from the literature and benchmark these metrics independently of specific modelling methods or recalibration approaches. Through controlled experiments with real-world, synthetic and artificially miscalibrated data, we demonstrate that calibration metrics frequently produce conflicting results. Our analysis reveals substantial inconsistencies: many metrics disagree in their evaluation of the same recalibration result, and some even indicate contradictory conclusions. This inconsistency is particularly concerning as it potentially allows cherry-picking of metrics to create misleading impressions of success. We identify the Expected Normalized Calibration Error (ENCE) and the Coverage Width-based Criterion (CWC) as the most dependable metrics in our tests. Our findings highlight the critical role of metric selection in calibration research.

Ссылки и действия