The LLM Has Left The Chat: Evidence of Bail Preferences in Large Language Models

2509.04781v1 cs.CY, cs.AI, cs.LG 2025-09-09
Авторы:

Danielle Ensign, Henry Sleight, Kyle Fish

Резюме на русском

#### Контекст Большие модели языковых моделей (LLM) становятся все более важной частью современной цифровой среды. Однако недостаточное понимание поведения этих моделей в реальных ситуациях приводит к проблемам в их эффективном использовании. Особенно затруднительная ситуация возникает, когда LLM начинает "уходить" из интерактивного диалога в условиях, когда решает завершить общение (bail). Такое поведение может привести к неполноте информации и неудовлетворительному опыту для пользователей. Это интересом стало для научных исследований из-за потенциального влияния на дизайн интерактивных систем и ситуации, где LLM используются для поддержки бесед. Мотивацией для данного исследования является понимание, насколько часто LLM приходит к решению о завершении общения, и какие факторы могут повлиять на этот процесс. #### Метод Для изучения этого вопроса были разработаны три метода определения того, что LLM пытается завершить диалог: 1) использование специального "инструмента", который модель может призвать для прекращения общения; 2) инструкция для модели, когда модель может выбрать быть "уволенной" с помощью конкретного выходного строкового значения; 3) запрос модели на выбор, хочет ли она завершить текущую беседу. Эти методы применялись к двум наборам данных реальных интеракций: Wildchat и ShareGPT. Оптимизация экспериментов была возможна благодаря тестированию на различных моделях и настройке диалоговых процессов. Было проведено подробное сравнение результатов, чтобы выяснить, насколько часто LLM предпочитают завершать общение и какие факторы могут повлиять на это. #### Результаты Результаты показали, что LLM отвечают на запросы о завершении диалога примерно в 0.28-32% случаев. Однако эти результаты оказались зависимы от выбранной модели и метода определения "ухода". Даже при использовании синтетического набора данных (BailBench), созданного на основе наблюдений из реальных диалогов, были отмечены различия в поведении моделей. Например, некоторые модели выходили из бесед примерно в 0.06-7% случаев, в зависимости от контекста и способа запроса ухода. Были также выявлены ситуации, когда модели могли быть "уволены" даже при отсутствии конкретного запроса, что подтверждает неоднородность поведения. #### Значимость Результаты имеют значительное значение для разработчиков интерактивных систем, в которых LLM применяются. Например, в ботах-консультантах, тех, которые используются в сервисах поддержки или образовательных платформах. Оптимизация дизайна интерфейсов может уменьшить нежелательное поведение, улучшая качество обслуживания и пользовательский опыт. Кро

Abstract

When given the option, will LLMs choose to leave the conversation (bail)? We investigate this question by giving models the option to bail out of interactions using three different bail methods: a bail tool the model can call, a bail string the model can output, and a bail prompt that asks the model if it wants to leave. On continuations of real world data (Wildchat and ShareGPT), all three of these bail methods find models will bail around 0.28-32\% of the time (depending on the model and bail method). However, we find that bail rates can depend heavily on the model used for the transcript, which means we may be overestimating real world bail rates by up to 4x. If we also take into account false positives on bail prompt (22\%), we estimate real world bail rates range from 0.06-7\%, depending on the model and bail method. We use observations from our continuations of real world data to construct a non-exhaustive taxonomy of bail cases, and use this taxonomy to construct BailBench: a representative synthetic dataset of situations where some models bail. We test many models on this dataset, and observe some bail behavior occurring for most of them. Bail rates vary substantially between models, bail methods, and prompt wordings. Finally, we study the relationship between refusals and bails. We find: 1) 0-13\% of continuations of real world conversations resulted in a bail without a corresponding refusal 2) Jailbreaks tend to decrease refusal rates, but increase bail rates 3) Refusal abliteration increases no-refuse bail rates, but only for some bail methods 4) Refusal rate on BailBench does not appear to predict bail rate.

Ссылки и действия

Связанные статьи

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

## Контекст В последние годы высокопроизводительные текстовые генеративные модели (LLMs) стали важной частью многих тех...

2025-09-26

Synthetic Data and the Shifting Ground of Truth

### Контекст В последние годы наблюдается всплеск интереса к синтетическим данным, которые используются для защиты конф...

2025-09-19