BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback
2509.21106v1
cs.CL, cs.IR
2025-09-27
Авторы:
Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee
Резюме на русском
## Контекст
Поисковые системы, интегрирующие возможность поиска и генерации, стали мощным инструментом для выполнения информационных задач. Однако они часто не удаляются в полной мере в удовлетворении разнообразных потребностей пользователей. Эти потребности включают различные цели запросов, предпочтения по форме и функциональности ответа. Например, на запрос "заказать местное блюдо" может оказаться нужным ответ в виде ссылки на доставленное меню, а в другом случае – рецепт или информация об истории блюда.
Предыдущие поисковые системы, такие как BERT и GPT, предлагали лишь ответы в виде текста, не учитывая требования пользователей к формату и контексту выдачи. Однако поисковые системы с расширенным сквозным поиском (search-augmented), такие как ChatGPT и Gemini, расширили возможности, включив в свою работу хранение и анализ пользовательских историй для формирования более персонализированных ответов. Несмотря на это, эффективность такой персонализации в системах поиска и генерации остается недостаточно изученной.
Чтобы решить эту проблему, мы предлагаем BESPOKE, реалистичный бенчмарк для оценки персонализации в поисковых системах, использующихся в системах генерации.
## Метод
BESPOKE (Benchmark for Evaluating Search-augmented Personalization via Key Evaluation) представляет собой бенчмарк, специально разработанный для оценки того, насколько хорошо поисковые системы приспосабливаются к персонализации с использованием данных, полученных от пользователей.
Бенчмарк BESPOKE использует данные, собранные от пользователей через интерфейс с глубоким взаимодействием. Эти данные включают истории поиска и чат-сообщения, авторством которых стояли пользователи. Они содержат запросы, которые отражают различные цели, и ответы, которые подвергались оценке и диагностическому анализу пользователями.
Разработка BESPOKE была основана на долгосрочном участии настоящих пользователей, которые разрабатывали запросы, описывали их потребности и анализировали результаты с использованием детальных показателей и постановок. Это делает BESPOKE одной из наиболее реалистичных и диагностически значимых моделей для оценки персонализированных поисковых систем.
## Результаты
В ходе экспериментов с BESPOKE были проанализированы несколько моделей поиска с расширенным поиском. Мы использовали реальные данные, собранные из жизненного опыта пользователей, и проанализировали их с учетом полученных ответвлений и постановок.
Наши результаты показали, что системы с поисковым расширением, использующие BESPOKE, выдают значительно более точные и персонализированные ответы по сравнению с системами без такого подхода. Мы также отм
Abstract
Search-augmented large language models (LLMs) have advanced
information-seeking tasks by integrating retrieval into generation, reducing
users' cognitive burden compared to traditional search systems. Yet they remain
insufficient for fully addressing diverse user needs, which requires
recognizing how the same query can reflect different intents across users and
delivering information in preferred forms. While recent systems such as ChatGPT
and Gemini attempt personalization by leveraging user histories, systematic
evaluation of such personalization is under-explored. To address this gap, we
propose BESPOKE, the realistic benchmark for evaluating personalization in
search-augmented LLMs. BESPOKE is designed to be both realistic, by collecting
authentic chat and search histories directly from humans, and diagnostic, by
pairing responses with fine-grained preference scores and feedback. The
benchmark is constructed through long-term, deeply engaged human annotation,
where human annotators contributed their own histories, authored queries with
detailed information needs, and evaluated responses with scores and diagnostic
feedback. Leveraging BESPOKE, we conduct systematic analyses that reveal key
requirements for effective personalization in information-seeking tasks,
providing a foundation for fine-grained evaluation of personalized
search-augmented LLMs. Our code and data are available at
https://augustinlib.github.io/BESPOKE/.
Ссылки и действия
Дополнительные ресурсы: