TURA: Tool-Augmented Unified Retrieval Agent for AI Search
2508.04604v1
cs.CL, cs.AI, cs.IR
2025-08-08
Авторы:
Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы.
Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах.
Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа.
Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников.
Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета.
Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления.
Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности
Abstract
The advent of Large Language Models (LLMs) is transforming search engines
into conversational AI search products, primarily using Retrieval-Augmented
Generation (RAG) on web corpora. However, this paradigm has significant
industrial limitations. Traditional RAG approaches struggle with real-time
needs and structured queries that require accessing dynamically generated
content like ticket availability or inventory. Limited to indexing static
pages, search engines cannot perform the interactive queries needed for such
time-sensitive data. Academic research has focused on optimizing RAG for static
content, overlooking complex intents and the need for dynamic sources like
databases and real-time APIs. To bridge this gap, we introduce TURA
(Tool-Augmented Unified Retrieval Agent for AI Search), a novel three-stage
framework that combines RAG with agentic tool-use to access both static content
and dynamic, real-time information. TURA has three key components: an
Intent-Aware Retrieval module to decompose queries and retrieve information
sources encapsulated as Model Context Protocol (MCP) Servers, a DAG-based Task
Planner that models task dependencies as a Directed Acyclic Graph (DAG) for
optimal parallel execution, and a lightweight Distilled Agent Executor for
efficient tool calling. TURA is the first architecture to systematically bridge
the gap between static RAG and dynamic information sources for a world-class AI
search product. Serving tens of millions of users, it leverages an agentic
framework to deliver robust, real-time answers while meeting the low-latency
demands of a large-scale industrial system.
Ссылки и действия
Дополнительные ресурсы: