A Perfectly Truthful Calibration Measure
2508.13100v1
cs.LG, cs.DS, stat.ML
2025-08-20
Авторы:
Jason Hartline, Lunjia Hu, Yifan Wu
Резюме на русском
#### Контекст
Калибровка (calibration) — ключевой понятийный аппарат в области прогнозирования и анализа данных. Она определяется как условие, при котором прогнозы соответствуют их условной независимости от данных признаков, что обеспечивает надежную интерпретируемость прогнозов в виде вероятностей. Однако вычисление точных калибровочных мер чревато сложностями, поскольку большинство известных мер не гарантируют точность на ограниченных выборках. Это недостаток стимулировал разработку более точных и эффективных калибровочных мер, учитывающих специфику реальных данных.
#### Метод
Мы предлагаем новую калибровочную меру — **авторский 2-биновый калибровочный луч (averaged two-bin calibration error, ATB)**. Эта мера гарантирует устойчивость и полноту, обладает значительным аналитическим элементом, а также является простой в определении и расчете. Она обладает значительным преимуществом перед существующими мерами, такими как **smooth calibration error (smCal)** и **distance to calibration (distCal)**, с точки зрения расчета и эффективности. Это делает ATB лучшим выбором для тестирования калибровки на больших данных.
#### Результаты
Мы провели эксперименты с ATB на различных данных и сравнили итоги с другими мерами. Наши результаты показали, что ATB обеспечивает более точное и эффективное калибровочное тестирование по сравнению с smCal и distCal. Для проверки точности мера ATB обладает высокой производительностью за счет простоты расчета, что позволяет значительно сократить время вычислений. Эта мера также легко интегрируется в существующие прогнозные модели.
#### Значимость
Основные преимущества ATB включают высокую производительность, простоту интеграции в модели и точность в тестировании калибровки. Эта мера хорошо подходит для использования в ситуациях, где необходима надежная интерпретируемость прогнозов в виде вероятностей. Мы также предложили универсальный алгоритм для конструирования других точных калибровочных мер, что позволит расширить эту область исследований в будущем.
#### Выводы
Мы сумели разработать первую точную калибровочную меру в батч-режиме. Наша работа показала, что ATB является эффективным инструментом для точного тестирования калибровки. В будущем мы планируем расширить возможности ATB и его приложений в других областях, таких как обучение с учителем и моделирование вероятностей.
Abstract
Calibration requires that predictions are conditionally unbiased and,
therefore, reliably interpretable as probabilities. Calibration measures
quantify how far a predictor is from perfect calibration. As introduced by
Haghtalab et al. (2024), a calibration measure is truthful if it is minimized
in expectation when a predictor outputs the ground-truth probabilities.
Although predicting the true probabilities guarantees perfect calibration, in
reality, when calibration is evaluated on a finite sample, predicting the truth
is not guaranteed to minimize any known calibration measure. All known
calibration measures incentivize predictors to lie in order to appear more
calibrated on a finite sample. Such lack of truthfulness motivated Haghtalab et
al. (2024) and Qiao and Zhao (2025) to construct approximately truthful
calibration measures in the sequential prediction setting, but no perfectly
truthful calibration measure was known to exist even in the more basic batch
setting.
We design a perfectly truthful calibration measure in the batch setting:
averaged two-bin calibration error (ATB). In addition to being truthful, ATB is
sound, complete, continuous, and quadratically related to two existing
calibration measures: the smooth calibration error (smCal) and the (lower)
distance to calibration (distCal). The simplicity in our definition of ATB
makes it efficient and straightforward to compute. ATB allows faster estimation
algorithms with significantly easier implementations than smCal and distCal,
achieving improved running time and simplicity for the calibration testing
problem studied by Hu et al. (2024). We also introduce a general recipe for
constructing truthful measures, which proves the truthfulness of ATB as a
special case and allows us to construct other truthful calibration measures
such as quantile-binned l_2-ECE.
Ссылки и действия
Дополнительные ресурсы: