HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches
2508.08088v1
cs.IR, cs.AI, cs.CL
2025-08-13
Авторы:
Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen
Резюме на русском
#### ## Контекст
В современном бизнесе и науке возрастает нужда в системах, которые могут эффективно искать и анализировать информацию из разных источников. Традиционные поисковые системы, ограниченные одним контекстом (локальным или веб-ресурсам), не могут полностью удовлетворить потребности предприятий, требующих системы, которая умеет объединять результаты поиска из разных источников. В данной статье предлагается решение этой проблемы, разработав фреймворк, который может выполнять поиск в локальных и веб-источниках одновременно, обеспечивая более точные и полные результаты.
#### ## Метод
Фреймворк **HierSearch** основывается на принципах гибридного подхода, используя два основных уровня: локальный и веб-поиск. Нижний уровень включает два подхода: локальный и веб-поисковые агенты, которые отдельно работают с своими источниками, используя глубокое обучение. Верхний уровень представляет собой планировщика, который координирует действия нижних уровней, обеспечивая контекстуальную связь результатов. Для улучшения качества ответов используется механизм "Кновлдже Рефайнер", который отфильтровывает ненужную или неточную информацию. Фреймворк тренируется с помощью гибридного г DEEP Q-LEARNING.
#### ## Результаты
В ходе экспериментов были проверены различные сценарии поиска в различных областях: генеральные, финансовые и медицинские. На основе данных были произведены сравнительные тесты с другими подходами, такими как радикальный поиск и многоисточниковый поиск. **HierSearch** показал значительное превосходство в точности поиска и скорости работы. Он был лучше в разы в ситуациях, когда требовалось объединение информации из разных источников.
#### ## Значимость
Фреймворк может быть применен в различных сферах, где необходим прецизионный поиск, например, в финансовой отрасли для анализа рыночных трендов, в медицине для поиска новых лекарственных препаратов или в образовательных системах для доступа к широкой базе знаний. **HierSearch** предлагает значительные преимущества в скорости и точности, что может привести к улучшению производительности работников и ускорению принятия решений в различных корпоративных задачах.
#### ## Выводы
В результате исследования был разработан **HierSearch**, продемонстрировавший значительное превосходство перед существующими методами. Будущие исследования будут направлены на улучшение механизма фильтрации, а также на расширение поддерживаемых типов источников информации, включая видео- и аудио-контент. Это может привести к еще большему расширению применений данного фреймворка в различных областя
Abstract
Recently, large reasoning models have demonstrated strong mathematical and
coding abilities, and deep search leverages their reasoning capabilities in
challenging information retrieval tasks. Existing deep search works are
generally limited to a single knowledge source, either local or the Web.
However, enterprises often require private deep search systems that can
leverage search tools over both local and the Web corpus. Simply training an
agent equipped with multiple search tools using flat reinforcement learning
(RL) is a straightforward idea, but it has problems such as low training data
efficiency and poor mastery of complex tools. To address the above issue, we
propose a hierarchical agentic deep search framework, HierSearch, trained with
hierarchical RL. At the low level, a local deep search agent and a Web deep
search agent are trained to retrieve evidence from their corresponding domains.
At the high level, a planner agent coordinates low-level agents and provides
the final answer. Moreover, to prevent direct answer copying and error
propagation, we design a knowledge refiner that filters out hallucinations and
irrelevant evidence returned by low-level agents. Experiments show that
HierSearch achieves better performance compared to flat RL, and outperforms
various deep search and multi-source retrieval-augmented generation baselines
in six benchmarks across general, finance, and medical domains.
Ссылки и действия
Дополнительные ресурсы: