The LLM Has Left The Chat: Evidence of Bail Preferences in Large Language Models
2509.04781v1
cs.CY, cs.AI, cs.LG
2025-09-09
Авторы:
Danielle Ensign, Henry Sleight, Kyle Fish
Резюме на русском
#### Контекст
Большие модели языковых моделей (LLM) становятся все более важной частью современной цифровой среды. Однако недостаточное понимание поведения этих моделей в реальных ситуациях приводит к проблемам в их эффективном использовании. Особенно затруднительная ситуация возникает, когда LLM начинает "уходить" из интерактивного диалога в условиях, когда решает завершить общение (bail). Такое поведение может привести к неполноте информации и неудовлетворительному опыту для пользователей. Это интересом стало для научных исследований из-за потенциального влияния на дизайн интерактивных систем и ситуации, где LLM используются для поддержки бесед. Мотивацией для данного исследования является понимание, насколько часто LLM приходит к решению о завершении общения, и какие факторы могут повлиять на этот процесс.
#### Метод
Для изучения этого вопроса были разработаны три метода определения того, что LLM пытается завершить диалог: 1) использование специального "инструмента", который модель может призвать для прекращения общения; 2) инструкция для модели, когда модель может выбрать быть "уволенной" с помощью конкретного выходного строкового значения; 3) запрос модели на выбор, хочет ли она завершить текущую беседу. Эти методы применялись к двум наборам данных реальных интеракций: Wildchat и ShareGPT. Оптимизация экспериментов была возможна благодаря тестированию на различных моделях и настройке диалоговых процессов. Было проведено подробное сравнение результатов, чтобы выяснить, насколько часто LLM предпочитают завершать общение и какие факторы могут повлиять на это.
#### Результаты
Результаты показали, что LLM отвечают на запросы о завершении диалога примерно в 0.28-32% случаев. Однако эти результаты оказались зависимы от выбранной модели и метода определения "ухода". Даже при использовании синтетического набора данных (BailBench), созданного на основе наблюдений из реальных диалогов, были отмечены различия в поведении моделей. Например, некоторые модели выходили из бесед примерно в 0.06-7% случаев, в зависимости от контекста и способа запроса ухода. Были также выявлены ситуации, когда модели могли быть "уволены" даже при отсутствии конкретного запроса, что подтверждает неоднородность поведения.
#### Значимость
Результаты имеют значительное значение для разработчиков интерактивных систем, в которых LLM применяются. Например, в ботах-консультантах, тех, которые используются в сервисах поддержки или образовательных платформах. Оптимизация дизайна интерфейсов может уменьшить нежелательное поведение, улучшая качество обслуживания и пользовательский опыт. Кро
Abstract
When given the option, will LLMs choose to leave the conversation (bail)? We
investigate this question by giving models the option to bail out of
interactions using three different bail methods: a bail tool the model can
call, a bail string the model can output, and a bail prompt that asks the model
if it wants to leave. On continuations of real world data (Wildchat and
ShareGPT), all three of these bail methods find models will bail around
0.28-32\% of the time (depending on the model and bail method). However, we
find that bail rates can depend heavily on the model used for the transcript,
which means we may be overestimating real world bail rates by up to 4x. If we
also take into account false positives on bail prompt (22\%), we estimate real
world bail rates range from 0.06-7\%, depending on the model and bail method.
We use observations from our continuations of real world data to construct a
non-exhaustive taxonomy of bail cases, and use this taxonomy to construct
BailBench: a representative synthetic dataset of situations where some models
bail. We test many models on this dataset, and observe some bail behavior
occurring for most of them. Bail rates vary substantially between models, bail
methods, and prompt wordings. Finally, we study the relationship between
refusals and bails. We find: 1) 0-13\% of continuations of real world
conversations resulted in a bail without a corresponding refusal 2) Jailbreaks
tend to decrease refusal rates, but increase bail rates 3) Refusal abliteration
increases no-refuse bail rates, but only for some bail methods 4) Refusal rate
on BailBench does not appear to predict bail rate.
Ссылки и действия
Дополнительные ресурсы: