BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

2509.21106v1 cs.CL, cs.IR 2025-09-27

Авторы:

Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee

Резюме на русском

## Контекст Поисковые системы, интегрирующие возможность поиска и генерации, стали мощным инструментом для выполнения информационных задач. Однако они часто не удаляются в полной мере в удовлетворении разнообразных потребностей пользователей. Эти потребности включают различные цели запросов, предпочтения по форме и функциональности ответа. Например, на запрос "заказать местное блюдо" может оказаться нужным ответ в виде ссылки на доставленное меню, а в другом случае – рецепт или информация об истории блюда. Предыдущие поисковые системы, такие как BERT и GPT, предлагали лишь ответы в виде текста, не учитывая требования пользователей к формату и контексту выдачи. Однако поисковые системы с расширенным сквозным поиском (search-augmented), такие как ChatGPT и Gemini, расширили возможности, включив в свою работу хранение и анализ пользовательских историй для формирования более персонализированных ответов. Несмотря на это, эффективность такой персонализации в системах поиска и генерации остается недостаточно изученной. Чтобы решить эту проблему, мы предлагаем BESPOKE, реалистичный бенчмарк для оценки персонализации в поисковых системах, использующихся в системах генерации. ## Метод BESPOKE (Benchmark for Evaluating Search-augmented Personalization via Key Evaluation) представляет собой бенчмарк, специально разработанный для оценки того, насколько хорошо поисковые системы приспосабливаются к персонализации с использованием данных, полученных от пользователей. Бенчмарк BESPOKE использует данные, собранные от пользователей через интерфейс с глубоким взаимодействием. Эти данные включают истории поиска и чат-сообщения, авторством которых стояли пользователи. Они содержат запросы, которые отражают различные цели, и ответы, которые подвергались оценке и диагностическому анализу пользователями. Разработка BESPOKE была основана на долгосрочном участии настоящих пользователей, которые разрабатывали запросы, описывали их потребности и анализировали результаты с использованием детальных показателей и постановок. Это делает BESPOKE одной из наиболее реалистичных и диагностически значимых моделей для оценки персонализированных поисковых систем. ## Результаты В ходе экспериментов с BESPOKE были проанализированы несколько моделей поиска с расширенным поиском. Мы использовали реальные данные, собранные из жизненного опыта пользователей, и проанализировали их с учетом полученных ответвлений и постановок. Наши результаты показали, что системы с поисковым расширением, использующие BESPOKE, выдают значительно более точные и персонализированные ответы по сравнению с системами без такого подхода. Мы также отм

Abstract

Search-augmented large language models (LLMs) have advanced information-seeking tasks by integrating retrieval into generation, reducing users' cognitive burden compared to traditional search systems. Yet they remain insufficient for fully addressing diverse user needs, which requires recognizing how the same query can reflect different intents across users and delivering information in preferred forms. While recent systems such as ChatGPT and Gemini attempt personalization by leveraging user histories, systematic evaluation of such personalization is under-explored. To address this gap, we propose BESPOKE, the realistic benchmark for evaluating personalization in search-augmented LLMs. BESPOKE is designed to be both realistic, by collecting authentic chat and search histories directly from humans, and diagnostic, by pairing responses with fine-grained preference scores and feedback. The benchmark is constructed through long-term, deeply engaged human annotation, where human annotators contributed their own histories, authored queries with detailed information needs, and evaluated responses with scores and diagnostic feedback. Leveraging BESPOKE, we conduct systematic analyses that reveal key requirements for effective personalization in information-seeking tasks, providing a foundation for fine-grained evaluation of personalized search-augmented LLMs. Our code and data are available at https://augustinlib.github.io/BESPOKE/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация