AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
2509.24193v1
cs.CL, cs.AI, cs.IR, cs.LG
2025-10-01
Авторы:
Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
Резюме на русском
## Контекст
Поисковые вычисления, интегрированные с ло LLM, широко применяются для решения сложных задач, но сталкиваются с рядом проблем. Неэффективная многошаговая рекомендация и ограниченная возможность рационального мышления приводят к снижению качества решений. Эти проблемы особенно актуальны в области финансового анализа и текстовой обработки. Необходимость повышения эффективности и точности поисковых запросов привела к развитию AceSearcher — рамочного подхода, который объединяет распределённое мышление и поисковые технологии для улучшения процесса получения ответа.
## Метод
AceSearcher представляет собой самоиграческую систему, в которой один ЛЛМ выполняет две роли: декомпозитор и решатель. Декомпозитор разбивает запрос на подзадачи, а решатель агрегирует информацию и формирует ответ. Метод основывается на использовании супервизованного дообучения учитывающего разнообразие задач, а также на развитии модели через реинфорсинг оптимизации на основе актёр-критика. Это позволяет избежать требований к интерпретации важности вариантов ответа и ускорить процесс обучения.
## Результаты
На тестах трёх разных сфер — финансового анализа, текстового понимания и распределённого мышления — AceSearcher показал свои преимущества. Эксперименты проводились на 10 различных датасетах. Модель опережает современные аналоги: например, на финансовых задачах повысила точность решения до 32%, при этом работая с меньшим числом параметров (до 5% от DeepSeek-V3). Даже при меньших размерах модели (1.5B и 8B параметров) AceSearcher превосходит существующие решения, за счёт высокой эффективности и универсальности.
## Значимость
AceSearcher имеет широкие перспективы в различных областях, включая финансовый анализ, предсказание рисков и текстовую обработку. Основные преимущества: эффективность, точность и универсальность. Модель обеспечивает значительное увеличение эффективности по сравнению с предшествующими подходами, что делает её привлекательной для решения сложных задач. Будущие исследования будут сконцентрированы на расширении функционала и упрощении интеграции с другими технологиями.
## Выводы
AceSearcher доказала свою эффективность в решении сложных задач, где требуется высокая точность и рациональность. Она предлагает новый подход к проблемам рекомендации и распределённого мышления, повышая производительность и гибкость. Будущие исследования будут сосредоточены на улучшении модели, уменьшении потребления ресурсов и расширении её применение в различных сферах.
Abstract
Search-augmented LLMs often struggle with complex reasoning tasks due to
ineffective multi-hop retrieval and limited reasoning ability. We propose
AceSearcher, a cooperative self-play framework that trains a single large
language model (LLM) to alternate between two roles: a decomposer that breaks
down complex queries and a solver that integrates retrieved contexts for answer
generation. AceSearcher couples supervised fine-tuning on a diverse mixture of
search, reasoning, and decomposition tasks with reinforcement fine-tuning
optimized for final answer accuracy, eliminating the need for intermediate
annotations. Extensive experiments on three reasoning-intensive tasks across 10
datasets show that AceSearcher outperforms state-of-the-art baselines,
achieving an average exact match improvement of 7.6%. Remarkably, on
document-level finance reasoning tasks, AceSearcher-32B matches the performance
of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller
scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented
LLMs with up to 9x more parameters, highlighting its exceptional efficiency and
effectiveness in tackling complex reasoning tasks. Our code will be published
at https://github.com/ritaranx/AceSearcher and
https://huggingface.co/AceSearcher.