HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

2508.08088v1 cs.IR, cs.AI, cs.CL 2025-08-13
Авторы:

Jiejun Tan, Zhicheng Dou, Yan Yu, Jiehan Cheng, Qiang Ju, Jian Xie, Ji-Rong Wen

Резюме на русском

#### ## Контекст В современном бизнесе и науке возрастает нужда в системах, которые могут эффективно искать и анализировать информацию из разных источников. Традиционные поисковые системы, ограниченные одним контекстом (локальным или веб-ресурсам), не могут полностью удовлетворить потребности предприятий, требующих системы, которая умеет объединять результаты поиска из разных источников. В данной статье предлагается решение этой проблемы, разработав фреймворк, который может выполнять поиск в локальных и веб-источниках одновременно, обеспечивая более точные и полные результаты. #### ## Метод Фреймворк **HierSearch** основывается на принципах гибридного подхода, используя два основных уровня: локальный и веб-поиск. Нижний уровень включает два подхода: локальный и веб-поисковые агенты, которые отдельно работают с своими источниками, используя глубокое обучение. Верхний уровень представляет собой планировщика, который координирует действия нижних уровней, обеспечивая контекстуальную связь результатов. Для улучшения качества ответов используется механизм "Кновлдже Рефайнер", который отфильтровывает ненужную или неточную информацию. Фреймворк тренируется с помощью гибридного г DEEP Q-LEARNING. #### ## Результаты В ходе экспериментов были проверены различные сценарии поиска в различных областях: генеральные, финансовые и медицинские. На основе данных были произведены сравнительные тесты с другими подходами, такими как радикальный поиск и многоисточниковый поиск. **HierSearch** показал значительное превосходство в точности поиска и скорости работы. Он был лучше в разы в ситуациях, когда требовалось объединение информации из разных источников. #### ## Значимость Фреймворк может быть применен в различных сферах, где необходим прецизионный поиск, например, в финансовой отрасли для анализа рыночных трендов, в медицине для поиска новых лекарственных препаратов или в образовательных системах для доступа к широкой базе знаний. **HierSearch** предлагает значительные преимущества в скорости и точности, что может привести к улучшению производительности работников и ускорению принятия решений в различных корпоративных задачах. #### ## Выводы В результате исследования был разработан **HierSearch**, продемонстрировавший значительное превосходство перед существующими методами. Будущие исследования будут направлены на улучшение механизма фильтрации, а также на расширение поддерживаемых типов источников информации, включая видео- и аудио-контент. Это может привести к еще большему расширению применений данного фреймворка в различных областя

Abstract

Recently, large reasoning models have demonstrated strong mathematical and coding abilities, and deep search leverages their reasoning capabilities in challenging information retrieval tasks. Existing deep search works are generally limited to a single knowledge source, either local or the Web. However, enterprises often require private deep search systems that can leverage search tools over both local and the Web corpus. Simply training an agent equipped with multiple search tools using flat reinforcement learning (RL) is a straightforward idea, but it has problems such as low training data efficiency and poor mastery of complex tools. To address the above issue, we propose a hierarchical agentic deep search framework, HierSearch, trained with hierarchical RL. At the low level, a local deep search agent and a Web deep search agent are trained to retrieve evidence from their corresponding domains. At the high level, a planner agent coordinates low-level agents and provides the final answer. Moreover, to prevent direct answer copying and error propagation, we design a knowledge refiner that filters out hallucinations and irrelevant evidence returned by low-level agents. Experiments show that HierSearch achieves better performance compared to flat RL, and outperforms various deep search and multi-source retrieval-augmented generation baselines in six benchmarks across general, finance, and medical domains.

Ссылки и действия