BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

2508.06600v1 cs.CL, cs.IR 2025-08-13
Авторы:

Zijian Chen, Xueguang Ma, Shengyao Zhuang, Ping Nie, Kai Zou, Andrew Liu, Joshua Green, Kshama Patel, Ruoxi Meng, Mingyi Su, Sahel Sharifymoghaddam, Yanxi Li, Haoran Hong, Xinyu Shi, Xuye Liu, Nandan Thakur, Crystina Zhang, Luyu Gao, Wenhu Chen, Jimmy Lin

Резюме на русском

---------------------------------------------------- ## Контекст Modern Deep-Research agents, которые объединяют большие лингвистические модели (LLMs) с инструментами поиска, показали свою эффективность в обработке сложных запросов, требующих итеративного планирования поиска и логического анализа результатов. Однако существующие эталоны, такие как BrowseComp, страдают от значимых ограничений. Они полагаются на "черные-ящиковые" веб-API, что ограничивает справедливость сравнений и возможность повторения экспериментов. Также, существует недостаток в прозрачности, так как ученые не могут контролировать корпус документов, что затрудняет изоляцию вклада каждого отдельного компонента, такого как ретрайвер. Эти недостатки затрудняют получение точных выводов о реальных возможностях глубоких исследовательских систем. Мы предлагаем BrowseComp-Plus, бенчмарк, развитый из BrowseComp, с использованием фиксированного, тщательно подобранного корпуса. Он предлагает более справедливое и прозрачное сравнение, что позволяет более точно оценить глубокие исследовательские агенты и методы поиска. ---------------------------------------------------- ## Метод BrowseComp-Plus основывается на BrowseComp, но включает ряд улучшений, нацеленных на повышение справедливости и прозрачности. В нем используется фиксированный корпус документов, который позволяет сравнивать глубокие исследовательские системы в условиях управляемого эксперимента. Каждый запрос в BrowseComp-Plus включает в себя ручно проверенные документы, которые поддерживают ответы на запрос, а также майнытся трудноотличимые негативные примеры. Это позволяет тестировать не только систему в целом, но и отдельные компоненты, такие как ретрайвер или механизмы ранжирования. Бенчмарк также включает в себя меру эффективности поиска и точности цитирования, что дает подробную картину потенциала глубоких исследовательских систем. ---------------------------------------------------- ## Результаты Применение BrowseComp-Plus позволило получить наглядные результаты, подчеркнув разницу в качестве различных систем. Например, open-source модель Search-R1, использующая BM25 retriever, достигла 3.86% точности, в то время как GPT-5, использующий Qwen3-Embedding-8B retriever, показал 70.1% точности при меньшем числе поисковых запросов. Эти результаты доказывают, что BrowseComp-Plus эффективно отличает качество разных методов поиска и позволяет проводить детальный анализ компонентов глубоких исследовательских систем. Также бенчмарк поддерживает эксперименты с разными методами рекомендации документов и методами надёжности цитирования, предоставляя широкий спектр возможностей для дополнительных исследований. ---------------------------------------------------- ## Значимость BrowseComp-Plus предлагает новый стандарт для оценки глубоких исследовательских систем, позволяя сфокусиро

Abstract

Deep-Research agents, which integrate large language models (LLMs) with search tools, have shown success in improving the effectiveness of handling complex queries that require iterative search planning and reasoning over search results. Evaluations on current benchmarks like BrowseComp relies on black-box live web search APIs, have notable limitations in (1) fairness: dynamic and opaque web APIs hinder fair comparisons and reproducibility of deep research methods; (2) transparency: lack of control over the document corpus makes it difficult to isolate retriever contributions. In other words, the current evaluations may compare a complete deep research system at a given time, but they do not foster well-controlled experiments to provide insights into the capability of underlying deep research LLMs. To address these challenges, we introduce BrowseComp-Plus, a benchmark derived from BrowseComp, employing a fixed, carefully curated corpus. Each query in BrowseComp-Plus includes human-verified supporting documents and mined challenging negatives, enabling controlled experimentation. The benchmark is shown to be effective in distinguishing the performance of deep research systems. For instance, the open-source model Search-R1, when paired with the BM25 retriever, achieves 3.86% accuracy, whereas the GPT-5 achieves 55.9%. Integrating the GPT-5 with the Qwen3-Embedding-8B retriever further enhances its accuracy to 70.1% with fewer search calls. This benchmark allows comprehensive evaluation and disentangled analysis of deep research agents and retrieval methods, fostering insights into retrieval effectiveness, citation accuracy, and context engineering in Deep-Research system.

Ссылки и действия