Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
2508.12800v2
cs.CL, cs.AI
2025-08-20
Авторы:
Yong Deng, Guoqing Wang, Zhenzhe Ying, Xiaofeng Wu, Jinzhen Lin, Wenwen Xiong, Yuqin Dai, Shuo Yang, Zhanwei Zhang, Qiwen Wang, Yang Qin, Changhua Meng
Резюме на русском
## Контекст
Поиск информации и глубокое исследование тем – это ключевые задачи, которые находят применение в различных сферах, включая образование, научный исследовательский процесс, профессиональную деятельность и жизненные задачи. Однако существуют серьезные проблемы в наличии методов, позволяющих автоматизировать эти процессы с учетом глубины и сложности задач. Большинство текущих систем, основанных на традиционных подходах, сталкиваются с ограничениями в многоэтапном (многохопном) рассуждении, стратегическом поиске и неструктурированном анализе данных. Эти ограничения приводят к неэффективности в выделении релевантных фактов, вывода выводов и формировании согласованных ответов. Мотивацией для этого исследования является развитие методов, которые позволили бы агентным глубоким исследованиям более эффективно решать сложные задачи, в том числе с использованием расширенных знаний и многоуровневого рассуждения.
## Метод
Предложенный подход, Atom-Searcher, носит новаторский характер и состоит из двух основных компонентов: Atomic Thought и Atom-Searcher RL Framework. Atomic Thought представляет собой новую парадигму мышления для Лардных языковых моделей (LLMs), которая выделяет многочисленные мелкие моменты логического рассуждения, называемые Atomic Thought Units (ATUs). Каждая ATU является функциональным модулем, который решает часть задачи и может быть напрямую награждена Атомной Наградой Рассуждения (ATR). Атомная Награда Рассуждения – это новая подходящая мера, которая обеспечивает прецизионное управление глубоким рассуждением. Фармакологический фреймворк Atom-Searcher имеет курсивную структуру наград, которая начинается с наград по процессу (процесс-level ATR) и плавно переходит к наградам по результату (результат-level ATR). Это позволяет глубокому поиску более эффективно направляться к эффективным логическим путям. Эта архитектура обеспечивает гибкость, точность и улучшенную интерпретируемость в процессе глубокого исследования.
## Результаты
Проведены серия экспериментов на семи стандартных наборах данных для оценки эффективности Atom-Searcher. Эти штандартные наборы данных включали задачи, требующие глубокого и многохопного рассуждения, такие как OpenBookQA, HotpotQA и CIF. Одним из ключевых показателей стали качество ответов, процесс улучшения логических путей и эффективность обучения. Эксперименты показали, что Atom-Searcher показал существенное улучшение в сравнении с другими современными системами, в том числе теми, которые опираются на reinforcement learning (RL). Особое внимание было уделено интерпретируемости результатов и транспарентности в проц
Abstract
Large language models (LLMs) exhibit remarkable problem-solving abilities,
but struggle with complex tasks due to static internal knowledge.
Retrieval-Augmented Generation (RAG) enhances access to external information,
yet remains limited in multi-hop reasoning and strategic search due to rigid
workflows. Recent advancements in agentic deep research empower LLMs to
autonomously reason, search, and synthesize information. However, current
approaches relying on outcome-based reinforcement learning (RL) face critical
issues such as conflicting gradients and reward sparsity, limiting performance
gains and training efficiency. To address these, we first propose Atomic
Thought, a novel LLM thinking paradigm that decomposes reasoning into
fine-grained functional units. These units are supervised by Reasoning Reward
Models (RRMs), which provide Atomic Thought Rewards (ATR) for fine-grained
guidance. Building on this, we propose Atom-Searcher, a novel RL framework for
agentic deep research that integrates Atomic Thought and ATR. Atom-Searcher
uses a curriculum-inspired reward schedule, prioritizing process-level ATR
early and transitioning to outcome rewards, accelerating convergence on
effective reasoning paths. Experiments on seven benchmarks show consistent
improvements over the state-of-the-art. Key advantages include: (1)
Atom-Searcher scales computation at test-time. (2) Atomic Thought provides
supervision anchors for RRMs, bridging deep research tasks and RRMs. (3)
Atom-Searcher exhibits more interpretable, human-like reasoning patterns.
Ссылки и действия
Дополнительные ресурсы: