Towards Personalized Deep Research: Benchmarks and Evaluations

2509.25106v1 cs.CL, cs.AI, cs.IR 2025-10-01
Авторы:

Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou

Резюме на русском

## Контекст Современные Deep Research Agents (DRAs) могут выполнять сложные расследования и формировать подробные отчеты, демонстрируя высокий потенциал в реальных условиях. Однако, существующие оценочные подходы ограничиваются замкнутыми бенчмарками, не учитывая открытые, открытые тесты, не уделяя внимания личности пользователя. Это снижает реальность этих оценок и не позволяет оценить полную силу DRAs в персонализированных сценариях. Исследователи предлагают новый подход, разработав Personalized Deep Research Bench, первый бенчмарк, оценивающий возможность персонализации DRAs. Он сочетает 50 разных расследований из 10 различных областей с 25 реальными профилями пользователей, включающими как структурированные атрибуты, так и динамические контексты, что приводит к 250 реальным запросам пользователей. ## Метод Для оценки систем был разработан PQR Evaluation Framework, который оценивает три ключевых аспекта: (P) Personalization Alignment, (Q) Content Quality и (R) Factual Reliability. Personalization Alignment оценивает долю личности пользователя в процессе расследования, Content Quality оценивает качество информации, а Factual Reliability — точность и достоверность фактических данных. Этот фреймворк позволяет эффективно оценивать системы на различных уровнях сложности, учитывая требования к персонализации и качеству результатов. Использование этого подхода позволяет более точно определить сильные и слабые стороны существующих DRAs. ## Результаты В ходе экспериментов были оценены несколько систем DRAs на базе Personalized Deep Research Bench. Результаты показали, что ни одна из систем не достигла идеального соотношения всех трех аспектов. Наилучшие результаты были получены в плане Content Quality, но существуют существенные проблемы в Personalization Alignment и Factual Reliability. Например, некоторые системы способны хорошо адаптироваться к личным предпочтениям, но страдают от неточностей в фактических данных. Эти результаты подтверждают, что есть большой потенциал для улучшения личности DRAs, особенно в сценариях с большим количеством динамических контекстов. ## Значимость Разработанный подход и бенчмарк имеют широкие применения в области развития персонализированных AI-решений. Они могут быть использованы для создания пользовательских AI-помощников, которые будут учитывать индивидуальные потребности и контексты. Это может привести к улучшению качества сервисов в области информационного поиска, медицины, юриспруденции и других областях, где нужно учитывать личные особенности. В будущем это может привести к развитию новых, более гибких и эффективных AI-систем, улучшающих качество жизни пользователей. ## Выводы Основной достижением является создание первого бенчмарка для оценки персонализации в DR

Abstract

Deep Research Agents (DRAs) can autonomously conduct complex investigations and generate comprehensive reports, demonstrating strong real-world potential. However, existing evaluations mostly rely on close-ended benchmarks, while open-ended deep research benchmarks remain scarce and typically neglect personalized scenarios. To bridge this gap, we introduce Personalized Deep Research Bench, the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 domains with 25 authentic user profiles that combine structured persona attributes with dynamic real-world contexts, yielding 250 realistic user-task queries. To assess system performance, we propose the PQR Evaluation Framework, which jointly measures (P) Personalization Alignment, (Q) Content Quality, and (R) Factual Reliability. Our experiments on a range of systems highlight current capabilities and limitations in handling personalized deep research. This work establishes a rigorous foundation for developing and evaluating the next generation of truly personalized AI research assistants.

Ссылки и действия