ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning
2508.09303v1
cs.CL, cs.AI, cs.IR
2025-08-15
Авторы:
Shu Zhao, Tan Yu, Anbang Xu, Japinder Singh, Aaditya Shukla, Rama Akkiraju
Резюме на русском
#### Контекст
Одной из основных проблем многошагового поиска информации является неэффективность последовательного обработки запросов, когда множество подзапросов может быть выполнено параллельно. Это проблема значительно ограничивает производительность и эффективность искусственного интеллекта в ситуациях, где разбор запроса требует множества независимых сравнений. Большинство нынешних решений не справляются с этим вопросом, так как ограничиваются строго последовательной обработкой, что приводит к затрату дополнительного времени и ресурсов.
Мотивирует эту работу необходимость в улучшении производительности и эффективности методов обработки запросов, особенно в ситуациях, где требуется сравнение множества субъектов. Наша цель — разработать рамочный подход, который позволит ло LLM распознавать и выполнять параллельные запросы, чтобы значительно улучшить эффективность и экономить ресурсы.
#### Метод
Мы предлагаем ParallelSearch, новую рамочную методику, которая позволяет LLM'ам разбивать запрос на подзапросы и выполнять их параллельно. Рамка работает в среде RLVR (reinforcement learning with verifiable rewards) и включает специальные функции награды, которые поощряют LLM для распознавания и выделения параллельных запросов.
ParallelSearch носит архитектурный характер, в которой три фундаментальных аспекта — сохранение точности ответа, качество разбиения запроса на подзапросы и эффективность параллельного выполнения — взаимодействуют динамически. Мы отработали множество экспериментов, оптимизировав все эти аспекты вместе, чтобы добиться максимального эффекта.
#### Результаты
Мы провели исследование ParallelSearch на семь разных бенчмарков, сравнивая его с другими подходами. Наша методика демонстрирует среднюю улучшение производительности на 2.9%, а на параллельных подзапросах — на 12.7%. Одновременно, ParallelSearch требует значительно меньше вызовов LLM (69.6%) в сравнении с последовательными подходами.
Эти результаты подтверждают значительный выигрыш в производительности, который достигается благодаря параллельному подходу. Ло LLM успешно распознают и выполняют параллельные запросы, уменьшая время и ресурсы, необходимые для обработки.
#### Значимость
Метод ParallelSearch может быть применен в различных областях, где необходима эффективная обработка запросов, например, в здравоохранении, финансах, интернет-поиске и других. Он обеспечивает существенное улучшение эффективности, экономия времени и ресурсов, что делает его привлекательным для реализации в промышленных решениях.
Помимо этого, ParallelSearch позволяет LLM работать более эффективно, уменьшая количество вызо
Abstract
Reasoning-augmented search agents such as Search-R1, trained via
reinforcement learning with verifiable rewards (RLVR), demonstrate remarkable
capabilities in multi-step information retrieval from external knowledge
sources. These agents address the limitations of their parametric memory by
dynamically gathering relevant facts to address complex reasoning tasks.
However, existing approaches suffer from a fundamental architectural
limitation: they process search queries strictly sequentially, even when
handling inherently parallelizable and logically independent comparisons. This
sequential bottleneck significantly constrains computational efficiency,
particularly for queries that require multiple entity comparisons. To address
this critical limitation, we propose ParallelSearch, a novel reinforcement
learning framework that empowers large language models (LLMs) to recognize
parallelizable query structures and execute multiple search operations
concurrently. Our approach introduces dedicated reward functions that
incentivize the identification of independent query components while preserving
answer accuracy through jointly considering correctness, query decomposition
quality, and parallel execution benefits. Comprehensive experiments demonstrate
that ParallelSearch outperforms state-of-the-art baselines by an average
performance gain of 2.9% across seven question-answering benchmarks. Notably,
on parallelizable questions, our method achieves a 12.7% performance
improvement while requiring only 69.6% of the LLM calls compared to sequential
approaches.
Ссылки и действия
Дополнительные ресурсы: