Characterizing Deep Research: A Benchmark and Formal Definition
2508.04183v1
cs.CL
2025-08-09
Авторы:
Abhinav Java, Ashmit Khandelwal, Sukruta Midigeshi, Aaron Halfaker, Amit Deshpande, Navin Goyal, Ankur Gupta, Nagarajan Natarajan, Amit Sharma
Резюме на русском
Данная работа привносит в существующую литературу определение и формальное характерирование задачи **deep research (DR)**, которая относится к сложной вычислительной и рассуждательной деятельности, необходимой для выполнения заданий по сбору и анализу информации. Авторы подчеркивают, что главной особенностью DR является широкая и разумная исследовательская структура, а не просто производство длинных отчетов. Работа предлагает новый базовый комплекс тестов LiveDRBench, содержащий 100 задач на различные тематики, включая научные и общественно-политические темы. Результаты оценки систем DR показали низкую точность в выполнении этих задач, с F1-мерой от 0.02 до 0.72 для различных подтипов. Открытый модель OpenAI показала лучшую F1-меру — 0.55. Анализ логики работы систем DR показал, что они склонны выполнять многобранчную работу с источниками и часто применяют механизмы возврата. Результаты указывают на необходимость улучшения систем DR в сфере поиска и граундинга.
Abstract
Information tasks such as writing surveys or analytical reports require
complex search and reasoning, and have recently been grouped under the umbrella
of \textit{deep research} -- a term also adopted by recent models targeting
these capabilities. Despite growing interest, the scope of the deep research
task remains underdefined and its distinction from other reasoning-intensive
problems is poorly understood. In this paper, we propose a formal
characterization of the deep research (DR) task and introduce a benchmark to
evaluate the performance of DR systems. We argue that the core defining feature
of deep research is not the production of lengthy report-style outputs, but
rather the high fan-out over concepts required during the search process, i.e.,
broad and reasoning-intensive exploration. To enable objective evaluation, we
define DR using an intermediate output representation that encodes key claims
uncovered during search-separating the reasoning challenge from surface-level
report generation. Based on this formulation, we propose a diverse, challenging
benchmark LiveDRBench with 100 challenging tasks over scientific topics (e.g.,
datasets, materials discovery, prior art search) and public interest events
(e.g., flight incidents, movie awards). Across state-of-the-art DR systems, F1
score ranges between 0.02 and 0.72 for any sub-category. OpenAI's model
performs the best with an overall F1 score of 0.55. Analysis of reasoning
traces reveals the distribution over the number of referenced sources,
branching, and backtracking events executed by current DR systems, motivating
future directions for improving their search mechanisms and grounding
capabilities. The benchmark is available at
https://github.com/microsoft/LiveDRBench.
Ссылки и действия
Дополнительные ресурсы: