WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

2509.13305v1 cs.LG, cs.CL 2025-09-18

Авторы:

Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

Резюме на русском

## Контекст Область исследования сосредоточена на развитии систем, которые могут выполнять сложные информационно-поисковые задачи с помощью глубокого обучения и результативных алгоритмов. Несмотря на успехы в области широкодоступных LLMs (Large Language Models), проблема сокращения расстояния между открытыми и закрытыми моделями, такими как DeepResearch, остается актуальной. Особенно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstvenно вы sobstвонелость суверенных агентов в области решения высокосложностных задач, таких как BrowseComp. Эти системы превосходят открытые модели в систематичной отработке неопределенности в данных и принятии решений. Мотивирует эти исследования необходимость улучшения системы понимания и обработки информации в сложных сценариях. ## Метод WebSailor-V2 представляет собой построенную после обучения методологию, которая использует синтетические данные и жадный подход к улучшению моделей. На основе RFT (Reasoning From Tasks), алгоритм обучения Duplicating Sampling Policy Optimization (DUPO) адаптирует модели к высоконагруженным сценариям. Основная идея заключается в создании ситуаций с высоким неопределенностным потенциалом, которые модель должна разрешить. Для этого используется структурированное семплирование задач и методы информационной обобщения. DUPO оптимизирует поведение модели в многошаговых задачах, уменьшая ошибки и увеличивая уверенность в ответах. ## Результаты В ходе экспериментов было продемонстрировано, что WebSailor-V2 демонстрирует повышенную точность и эффективность по сравнению с открытыми моделями в тех же самых задачах. За основу взяты данные из BrowseComp и других системных тестов, где викторина показала существенное улучшение в скорости и точности решения сложных вопросов. На открытых данных WebSailor-V2 показала точность, приблизившуюся к результатам закрытых систем, что подтвердило ее эффективность в решении неопределенных задач. ## Значимость WebSailor-V2 может применяться в различных областях, включая учебные системы, робототехнические системы, интеллектуальные помощники и информационные системы для пользователей. Она предоставляет возможность решать сложные задачи, избегая интерпретаций, связанных с недостатком доступа к ресурсам. Это значительно расширяет спектр моделей, которые могут быть использованы в промышленных сценариях без необходимости использовать закрытые модели. ## Выводы WebSailor-V2 достигла существенных улучшений в решении сложных задач, матчинг результаты закрытых моделей и даже превосходят их в отдельных сценариях. Будущие исследования будут сконцентрированы на расширении методологии для прочих задач, например, в сложных системах упра

Abstract

Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all open-source agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация