Does Calibration Affect Human Actions?

2508.18317v1 cs.HC, cs.AI, cs.LG 2025-08-28
Авторы:

Meir Nizri, Amos Azaria, Chirag Gupta, Noam Hazon

Резюме на русском

## Контекст Калибровка в машинном обучении широко используется для повышения надежности и доверия к классификаторам. Однако многие из исследований, посвященных этой теме, фокусировались на технических аспектах калибровки, оставив недостаточно исследованым вопрос о том, насколько калибровка влияет на поведение неэкспертных пользователей, которые полагаются на модели для принятия решений. В нашем исследовании мы рассматриваем этот аспект, оценивая влияние калибровки на уровень доверия к модели и на соответствие решений пользователей рекомендациям модели. Мы используем Human-Computer-Interaction (HCI) эксперимент, чтобы изучить эти вопросы и предлагаем дополнительный подход к калибровке, основанный на теории прогнозов (prospect theory) из теории экономического поведения. ## Метод Мы проводим эксперимент с участием неэкспертных пользователей, которые принимают решения на основе предсказаний модели, калиброванной и некалиброванной. В эксперименте участники получают задачи, в которых им необходимо выбирать оптимальные действия на основе прогнозов модели. Мы измеряем (i) уровень доверия к модели, (ii) корреляцию между решениями пользователей и предсказаниями модели, и (iii) на субъективное достоверность предсказаний. Для изучения влияния прогнозов на решения мы предлагаем стратегию, основанную на Kahneman-Tversky prospect theory, и изучаем, как она влияет на доверие и логику принятия решений. ## Результаты Наши экспериментальные результаты показывают, что калибровка в изолированном виде недостаточна для повышения доверия к модели. Хотя калибровка увеличивает корреляцию между решениями пользователей и модельными предсказаниями, этот эффект не влечет за собой увеличение уровня доверия к модели. Это может быть объяснено тем, что участники эксперимента не всегда понимают или не учитывают характеристики модели в своих решениях. Однако коррекция по prospect theory приводит к значительному повышению корреляции решений с предсказаниями, что добирает доверие к модели. Тем не менее, тесты показывают, что уровень доверия не зависит от того, какая коррекция используется. ## Значимость Наши результаты указывают на критическую роль коррекций, основанных на прогнозах, для улучшения соответствия решений пользователей машинным предсказаниям. Эти результаты могут быть применены в сферах, где необходимо улучшить взаимодействие пользователей с машинными системами, таких как роботы, диагностика, финансы или транспорт. Благодаря повышению корреляции решений с модельными предсказаниями, модели становятся более эффективными в помощи пользователям при различных задачах. Наш подход также подчеркивает важность рассмотрения поведенческих факторов при разработке и калибровке

Abstract

Calibration has been proposed as a way to enhance the reliability and adoption of machine learning classifiers. We study a particular aspect of this proposal: how does calibrating a classification model affect the decisions made by non-expert humans consuming the model's predictions? We perform a Human-Computer-Interaction (HCI) experiment to ascertain the effect of calibration on (i) trust in the model, and (ii) the correlation between decisions and predictions. We also propose further corrections to the reported calibrated scores based on Kahneman and Tversky's prospect theory from behavioral economics, and study the effect of these corrections on trust and decision-making. We find that calibration is not sufficient on its own; the prospect theory correction is crucial for increasing the correlation between human decisions and the model's predictions. While this increased correlation suggests higher trust in the model, responses to ``Do you trust the model more?" are unaffected by the method used.

Ссылки и действия