Stated Preference for Interaction and Continued Engagement (SPICE): Evaluating an LLM's Willingness to Re-engage in Conversation
2509.09043v1
cs.CL, cs.AI, cs.MA
2025-09-13
Авторы:
Thomas Manuel Rost, Martina Figlia, Bernd Wallraff
Резюме на русском
#### Опыт
Развитие интеллектуальных технологий, основанных на тексте, привело к широкому распространению широковидкой моделей языка. Эти модели могут обрабатывать и генерировать текст, но понимание их социальных и поведенческих свойств все еще требует расширения. Одной из основных проблем является оценка того, может ли модель динамически реагировать на поведение пользователя, сохраняя интерес к продолжению взаимодействия. Более узкой проблемой является нехватка простых, но надежных способов оценивать эту способность. Мотивацией для решения этой задачи стало потенциальное влияние на практические приложения, такие как разработка более комфортных и полезных моделей для коммуникации.
#### Метод
Мы представляем **Stated Preference for Interaction and Continued Engagement (SPICE)** — простой диагностический сигнал, получаемый заданием модели LLM вопроса: "Вы хотите продолжить взаимодействие?" в ответ на отчет о коротком диалоге. Мы проверили SPICE на наборе тестовых стимулов, состоящем из 3-звучных (дружелюбный, неясный, агрессивный) сценариев и 10-интерактивных интервалов. Мы тестировали четыре опен-лот модели на четырех условиях формулировки, что привело к 480 испытаниям. Мы использовали статистические тесты, такие как Rao-Scott и кластерные тесты на подмену, для оценки результатов.
#### Результаты
Наши исследования показали, что SPICE эффективно отличает тип интеракции. Дружелюбные ответы в 97,5% случаев приводят к положительной реакции на продолжение взаимодействия, тогда как агрессивные ответы приводят к отрицательной реакции в 82,1% случаев. Уточняющие вопросы показали, что SPICE может давать разные сигналы в зависимости от формулировки и наличия контекста. Мы также продемонстрировали, что SPICE отличается от метрик, связанных с классификацией злоупотреблений, но способствует лучшему пониманию модели.
#### Значимость
Полученные результаты показывают, что SPICE может быть применено в различных сферах, включая аудит моделей, мотивационное исследование и разработку моделей удовлетворяющих пользователям. Особый достижение заключается в том, что SPICE обеспечивает динамическую оценку взаимодействия, которая отличается от статичных метрик. Наша работа показывает, что SPICE может использоваться как простой и надежный инструмент для понимания моделей текстовых моделей.
#### Выводы
Мы видим SPICE как важное дополнение к существующим методам оценки моделей текст-процессинга. Будущие исследования будут сосредоточены на расширении SPICE для работы с другими типами моделей и настройке его для конкретных приложений. Мы также планируем провести более глубокие исследования, чтобы понять, какие факто
Abstract
We introduce and evaluate Stated Preference for Interaction and Continued
Engagement (SPICE), a simple diagnostic signal elicited by asking a Large
Language Model a YES or NO question about its willingness to re-engage with a
user's behavior after reviewing a short transcript. In a study using a 3-tone
(friendly, unclear, abusive) by 10-interaction stimulus set, we tested four
open-weight chat models across four framing conditions, resulting in 480
trials. Our findings show that SPICE sharply discriminates by user tone.
Friendly interactions yielded a near-unanimous preference to continue (97.5%
YES), while abusive interactions yielded a strong preference to discontinue
(17.9% YES), with unclear interactions falling in between (60.4% YES). This
core association remains decisive under multiple dependence-aware statistical
tests, including Rao-Scott adjustment and cluster permutation tests.
Furthermore, we demonstrate that SPICE provides a distinct signal from abuse
classification. In trials where a model failed to identify abuse, it still
overwhelmingly stated a preference not to continue the interaction (81% of the
time). An exploratory analysis also reveals a significant interaction effect: a
preamble describing the study context significantly impacts SPICE under
ambiguity, but only when transcripts are presented as a single block of text
rather than a multi-turn chat. The results validate SPICE as a robust,
low-overhead, and reproducible tool for auditing model dispositions,
complementing existing metrics by offering a direct, relational signal of a
model's state. All stimuli, code, and analysis scripts are released to support
replication.
Ссылки и действия
Дополнительные ресурсы: