On the Limits of Selective AI Prediction: A Case Study in Clinical Decision Making
2508.07617v1
cs.HC, cs.AI
2025-08-13
Авторы:
Sarah Jabbour, David Fouhey, Nikola Banovic, Stephanie D. Shepard, Ella Kazerooni, Michael W. Sjoding, Jenna Wiens
Резюме на русском
#### Контекст
Современные высокоэффективные модели искусственного интеллекта (AI) могут существенно повысить качество человеческих решений, особенно в области клинического медицинского мониторинга. Однако даже высокоточные модели могут давать неточные прогнозы при использовании на практике. Это может привести к автоматизационному биазу, когда люди слишком надеются на AI, что может привести к деформациям в процессе принятия решений. Одним из подходов, предложенных для решения этой проблемы, является "селективная прогнозирование", при которой модель может отказаться от прогнозирования, уведомив пользователя, чтобы позволить ему принять решение без помощи AI. Несмотря на потенциальные преимущества, эта идея требует подтверждения на реальных данных.
#### Метод
Мы провести эксперимент с участием 259 клинических специалистов, которые выполняли задачи диагностики и лечения больных. Мы сравнили их базовые результаты без использования AI с их результатами при использовании AI с и без селективного прогнозирования. Мы измерили их диагностическую точность в каждом случае. Это позволило нам изучить, насколько селективность может изменить поведение клинических специалистов в различных условиях.
#### Результаты
Наши результаты показывают, что селективность может значительно воздействовать на решения клинических специалистов. Без AI, точность диагноза была 66%, а с AI, но без селективности, она падала до 56%. С селективностью, она восстанавливалась до 64%. Однако наблюдалось изменение характера ошибок: при селективности, клиники пропускали более диагнозов (18% увеличение пропущенных диагнозов) и не получали достаточного лечения (35% увеличение пропущенных лечений) по сравнению с ситуацией без AI.
#### Значимость
Наши результаты имеют важное значение для проектирования будущих систем человеко-AI. Они показывают, что хотя селективность может снизить ошибки при диагоностике, она может привести к другим типам проблем, таким как упущение лечения. Это подтверждает необходимость в эмпирических исследованиях, чтобы лучше понять, как пользователи взаимодействуют с AI в сложных ситуациях.
#### Выводы
Мы можем сделать вывод, что селективность может помочь уменьшить влияние неточных прогнозов AI, но она не безупречна и может привести к новым проблемам. Будущие исследования должны сосредоточиться на понимании и оптимизации взаимодействия человека с AI в клинических ситуациях.
Abstract
AI has the potential to augment human decision making. However, even
high-performing models can produce inaccurate predictions when deployed. These
inaccuracies, combined with automation bias, where humans overrely on AI
predictions, can result in worse decisions. Selective prediction, in which
potentially unreliable model predictions are hidden from users, has been
proposed as a solution. This approach assumes that when AI abstains and informs
the user so, humans make decisions as they would without AI involvement. To
test this assumption, we study the effects of selective prediction on human
decisions in a clinical context. We conducted a user study of 259 clinicians
tasked with diagnosing and treating hospitalized patients. We compared their
baseline performance without any AI involvement to their AI-assisted accuracy
with and without selective prediction. Our findings indicate that selective
prediction mitigates the negative effects of inaccurate AI in terms of decision
accuracy. Compared to no AI assistance, clinician accuracy declined when shown
inaccurate AI predictions (66% [95% CI: 56%-75%] vs. 56% [95% CI: 46%-66%]),
but recovered under selective prediction (64% [95% CI: 54%-73%]). However,
while selective prediction nearly maintains overall accuracy, our results
suggest that it alters patterns of mistakes: when informed the AI abstains,
clinicians underdiagnose (18% increase in missed diagnoses) and undertreat (35%
increase in missed treatments) compared to no AI input at all. Our findings
underscore the importance of empirically validating assumptions about how
humans engage with AI within human-AI systems.
Ссылки и действия
Дополнительные ресурсы: