AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

2509.24193v1 cs.CL, cs.AI, cs.IR, cs.LG 2025-10-01

Авторы:

Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang

Резюме на русском

## Контекст Поисковые вычисления, интегрированные с ло LLM, широко применяются для решения сложных задач, но сталкиваются с рядом проблем. Неэффективная многошаговая рекомендация и ограниченная возможность рационального мышления приводят к снижению качества решений. Эти проблемы особенно актуальны в области финансового анализа и текстовой обработки. Необходимость повышения эффективности и точности поисковых запросов привела к развитию AceSearcher — рамочного подхода, который объединяет распределённое мышление и поисковые технологии для улучшения процесса получения ответа. ## Метод AceSearcher представляет собой самоиграческую систему, в которой один ЛЛМ выполняет две роли: декомпозитор и решатель. Декомпозитор разбивает запрос на подзадачи, а решатель агрегирует информацию и формирует ответ. Метод основывается на использовании супервизованного дообучения учитывающего разнообразие задач, а также на развитии модели через реинфорсинг оптимизации на основе актёр-критика. Это позволяет избежать требований к интерпретации важности вариантов ответа и ускорить процесс обучения. ## Результаты На тестах трёх разных сфер — финансового анализа, текстового понимания и распределённого мышления — AceSearcher показал свои преимущества. Эксперименты проводились на 10 различных датасетах. Модель опережает современные аналоги: например, на финансовых задачах повысила точность решения до 32%, при этом работая с меньшим числом параметров (до 5% от DeepSeek-V3). Даже при меньших размерах модели (1.5B и 8B параметров) AceSearcher превосходит существующие решения, за счёт высокой эффективности и универсальности. ## Значимость AceSearcher имеет широкие перспективы в различных областях, включая финансовый анализ, предсказание рисков и текстовую обработку. Основные преимущества: эффективность, точность и универсальность. Модель обеспечивает значительное увеличение эффективности по сравнению с предшествующими подходами, что делает её привлекательной для решения сложных задач. Будущие исследования будут сконцентрированы на расширении функционала и упрощении интеграции с другими технологиями. ## Выводы AceSearcher доказала свою эффективность в решении сложных задач, где требуется высокая точность и рациональность. Она предлагает новый подход к проблемам рекомендации и распределённого мышления, повышая производительность и гибкость. Будущие исследования будут сосредоточены на улучшении модели, уменьшении потребления ресурсов и расширении её применение в различных сферах.

Abstract

Search-augmented LLMs often struggle with complex reasoning tasks due to ineffective multi-hop retrieval and limited reasoning ability. We propose AceSearcher, a cooperative self-play framework that trains a single large language model (LLM) to alternate between two roles: a decomposer that breaks down complex queries and a solver that integrates retrieved contexts for answer generation. AceSearcher couples supervised fine-tuning on a diverse mixture of search, reasoning, and decomposition tasks with reinforcement fine-tuning optimized for final answer accuracy, eliminating the need for intermediate annotations. Extensive experiments on three reasoning-intensive tasks across 10 datasets show that AceSearcher outperforms state-of-the-art baselines, achieving an average exact match improvement of 7.6%. Remarkably, on document-level finance reasoning tasks, AceSearcher-32B matches the performance of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented LLMs with up to 9x more parameters, highlighting its exceptional efficiency and effectiveness in tackling complex reasoning tasks. Our code will be published at https://github.com/ritaranx/AceSearcher and https://huggingface.co/AceSearcher.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

General Agentic Memory Via Deep Research

Inside CORE-KG: Evaluating Structured Prompting and Coreference Resolution for K...

DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text...

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

Is Implicit Knowledge Enough for LLMs? A RAG Approach for Tree-based Structures

Навигация