Measuring and mitigating overreliance is necessary for building human-compatible AI

2509.08010v1 cs.CY, cs.AI, cs.CL, cs.HC 2025-09-11
Авторы:

Lujain Ibrahim, Katherine M. Collins, Sunnie S. Y. Kim, Anka Reuel, Max Lamparth, Kevin Feng, Lama Ahmad, Prajna Soni, Alia El Kattan, Merlin Stein, Siddharth Swaroop, Ilia Sucholutsky, Andrew Strait, Q. Vera Liao, Umang Bhatt

Резюме на русском

## Контекст Большие языковые модели (LLM) представляют собой инновационные технологии, работающие как "человеческие мыслительные партнеры", которые могут более естественно взаимодействовать с пользователями в человеческом языке. Их возможности становятся все более широко применяемыми в различных сферах, от здравоохранения до персонального консультирования. Однако с ростом их воздействия возрастает риск многообразных последствий, включая надёржание (overreliance), — когда люди доверяют моделям далеко вплоть до невозможности их реального выполнения заданий. Такое надёржание может привести к ошибкам в критически важных сферах, дисквалификации и вызову новых государственных регулирований. Работа рассматривает важность изучения и контроля надёржания в качестве ключевого аспекта развития и применения LLM. ## Метод Методология статьи основывается на подробном анализе характеристик LLM, технических решений, пользовательских ошибок и теоретических моделей. Авторы рассмотрели ряд экспериментов и исследований, которые выявляли системные слабые места, связанные с надёржанием. Широкий анализ был проведен с использованием различных типов данных, включая обучающие модели, проводящие эксперименты с пользователями и работающие с клиническими данными. Результаты этих экспериментов были связаны с рядом теоретических подходов, включая теорию поведения пользователей, а также технические аспекты, такие как влияние дизайна системы на поведение. ## Результаты Изученная работа проанализировала существующие данные по ошибкам, совершаемым при использовании LLM, включая не только искусственные события, но и реальные случаи, в которых операторы доверились моделям слишком сильно. На основе этих данных были выделены три главные типа рисков: высокорисковые ошибки, проблемы в государственном регулировании и индивидуальные проблемы. Авторы также сравнили три типа исторических подходов к измерению надёржания, указав на три основных проблемы в них, и предложили три новых подхода, которые могут помочь улучшить измерение надёржания. ## Значимость Результаты работы имеют большое значение для нескольких областей. В первую очередь, они могут быть применены в здравоохранении, психологии, юридических системах и других сферах, где действия LLMs могут оказать критическое воздействие. Благодаря предложенным рекомендациям, модели могут быть действительно более эффективно включены в процессы принятия решений, в то же время уменьшая риски, связанные с надёржанием. Эта работа так

Abstract

Large language models (LLMs) distinguish themselves from previous technologies by functioning as collaborative "thought partners," capable of engaging more fluidly in natural language. As LLMs increasingly influence consequential decisions across diverse domains from healthcare to personal advice, the risk of overreliance - relying on LLMs beyond their capabilities - grows. This position paper argues that measuring and mitigating overreliance must become central to LLM research and deployment. First, we consolidate risks from overreliance at both the individual and societal levels, including high-stakes errors, governance challenges, and cognitive deskilling. Then, we explore LLM characteristics, system design features, and user cognitive biases that - together - raise serious and unique concerns about overreliance in practice. We also examine historical approaches for measuring overreliance, identifying three important gaps and proposing three promising directions to improve measurement. Finally, we propose mitigation strategies that the AI research community can pursue to ensure LLMs augment rather than undermine human capabilities.

Ссылки и действия