📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jelke Wibbeke, Nico Schönfisch, Sebastian Rohjans, Andreas Rauh

## Контекст В сегменте прикладных решений, требующих гарантированной надежности и точности, данные-опирающиеся модели должны не только точно прогнозировать, но и оценивать свою собственную неопределенность. Эта характеристика, называемая калибровкой, является критической для основания рискованных решений. В регрессии широко развит комплекс метрик и методов калибровки, которые предназначены для достижения этой цели. Однако метрики калибровки отличаются по определению, предпосылкам и масштабам, что создает проблемы при интерпретации и сравнении результатов из разных исследований. Более того, многие методы калибровки были протестированы только на ограниченном наборе метрик, что не позволяет судить о габаритах их улучшений в разных контекстах. Работа предлагает систематическую классификацию метрик калибровки, извлеченных из ранее опубликованных работ, и их независимую оценку в условиях стандартных экспериментов с настоящими, синтетическими и специально искаженными данными. Это позволяет выявить области, где метрики дают несогласованные или противоречивые результаты, что может привести к неправильным выводам в процессе рекалибровки. ## Метод В работе использована систематическая классификация и обобщение метрик калибровки, извлеченных из литературы. Были проанализированы широкий спектл метрик, включая статистические меры как Expected Normalized Calibration Error (ENCE), так и критерии, основанные на простоте, такие как Coverage Width-based Criterion (CWC). Для проверки этих метрик были проведены эксперименты с реальными, синтетическими и подделанными данными, которые имитируют различные ситуации некорректной калибровки. Для каждой метрики была определена ее значимость и точность в оценке калибровки моделей. Эта методология позволила создать объективный бенчмарк для сравнения различных методов калибровки и их метрик. ## Результаты Эксперименты показали, что многие метрики калибровки дают противоречивые результаты при оценке одних и тех же результатов. Например, ENCE и CWC приводят к разным выводам о качестве рекалибровки, что может привести к неточностям при принятии решений. Было обнаружено, что некоторые метрики дают высокую оценку калибровки для моделей, которые на самом деле некорректно оценивают неопределенность. Это свидетельствует о сильных конфликтах между метриками, которые могут использоваться для "выбора подходящих результатов" в зависимости от их определения. В целом, было установлено, что ENCE и CWC показали себя как наиболее надежные метрики в этом квадрате, но даже они не являются идеальными и не всегда сходятся в оценках. ## Значимость Результаты работы имеют практическое значение для разрабо
Annotation:
In safety-critical applications data-driven models must not only be accurate but also provide reliable uncertainty estimates. This property, commonly referred to as calibration, is essential for risk-aware decision-making. In regression a wide variety of calibration metrics and recalibration methods have emerged. However, these metrics differ significantly in their definitions, assumptions and scales, making it difficult to interpret and compare results across studies. Moreover, most recalibrati...
ID: 2508.17761v1 cs.LG, stat.ML, 68T37, 68T07, 62P30, 62G07, 62F15, I.2.6; G.3; I.5.1