----------------------------------------------------
## Контекст
Modern Deep-Research agents, которые объединяют большие лингвистические модели (LLMs) с инструментами поиска, показали свою эффективность в обработке сложных запросов, требующих итеративного планирования поиска и логического анализа результатов. Однако существующие эталоны, такие как BrowseComp, страдают от значимых ограничений. Они полагаются на "черные-ящиковые" веб-API, что ограничивает справедливость сравнений и возможность повторения экспериментов. Также, существует недостаток в прозрачности, так как ученые не могут контролировать корпус документов, что затрудняет изоляцию вклада каждого отдельного компонента, такого как ретрайвер. Эти недостатки затрудняют получение точных выводов о реальных возможностях глубоких исследовательских систем. Мы предлагаем BrowseComp-Plus, бенчмарк, развитый из BrowseComp, с использованием фиксированного, тщательно подобранного корпуса. Он предлагает более справедливое и прозрачное сравнение, что позволяет более точно оценить глубокие исследовательские агенты и методы поиска.
----------------------------------------------------
## Метод
BrowseComp-Plus основывается на BrowseComp, но включает ряд улучшений, нацеленных на повышение справедливости и прозрачности. В нем используется фиксированный корпус документов, который позволяет сравнивать глубокие исследовательские системы в условиях управляемого эксперимента. Каждый запрос в BrowseComp-Plus включает в себя ручно проверенные документы, которые поддерживают ответы на запрос, а также майнытся трудноотличимые негативные примеры. Это позволяет тестировать не только систему в целом, но и отдельные компоненты, такие как ретрайвер или механизмы ранжирования. Бенчмарк также включает в себя меру эффективности поиска и точности цитирования, что дает подробную картину потенциала глубоких исследовательских систем.
----------------------------------------------------
## Результаты
Применение BrowseComp-Plus позволило получить наглядные результаты, подчеркнув разницу в качестве различных систем. Например, open-source модель Search-R1, использующая BM25 retriever, достигла 3.86% точности, в то время как GPT-5, использующий Qwen3-Embedding-8B retriever, показал 70.1% точности при меньшем числе поисковых запросов. Эти результаты доказывают, что BrowseComp-Plus эффективно отличает качество разных методов поиска и позволяет проводить детальный анализ компонентов глубоких исследовательских систем. Также бенчмарк поддерживает эксперименты с разными методами рекомендации документов и методами надёжности цитирования, предоставляя широкий спектр возможностей для дополнительных исследований.
----------------------------------------------------
## Значимость
BrowseComp-Plus предлагает новый стандарт для оценки глубоких исследовательских систем, позволяя сфокусиро