TURA: Tool-Augmented Unified Retrieval Agent for AI Search

2508.04604v1 cs.CL, cs.AI, cs.IR 2025-08-08
Авторы:

Zhejun Zhao, Yuehu Dong, Alley Liu, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei Yin

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие поисковых систем находится на этапе трансформации от традиционного отображения списка ссылок к интеллектуальному диалоговому взаимодействию, где ключевую роль играют большие языковые модели (LLM). Доминирующей парадигмой в этой области является Retrieval-Augmented Generation (RAG), которая обогащает генеративные модели информацией из проиндексированных веб-корпусов. Однако, несмотря на свою популярность в академической среде, существующие RAG-подходы сталкиваются с фундаментальными ограничениями при интеграции в промышленные поисковые системы. Основная проблема заключается в неспособности традиционных RAG-решений работать с динамически изменяющимися данными в реальном времени. Когда пользователь запрашивает информацию о наличии билетов на ближайший рейс, текущих остатках товаров на складе или свежих биржевых котировках, статически проиндексированные веб-страницы не могут обеспечить актуальность ответа. Это ограничение особенно критично для коммерческих поисковых систем, обслуживающих миллионы пользователей с ожиданием ответа в миллисекундах. Академическое сообщество сосредоточило свои усилия на оптимизации RAG для статического контента, практически игнорируя сложные пользовательские намерения, требующие доступа к динамическим источникам вроде баз данных и реальных API. Это создало значительный разрыв между теоретическими исследованиями и практическими потребностями индустрии. Существующие системы не могут эффективно обрабатывать запросы, которые требуют одновременного обращения к статическому веб-контенту для контекста и к динамическим API для актуальных данных, сохраняя при этом требуемую скорость отклика и масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для преодоления описанных ограничений авторы представляют TURA (Tool-Augmented Unified Retrieval Agent for AI Search) - инновационную трехэтапную архитектуру, которая органично объединяет преимущества RAG для статического контента с возможностями агентных систем для работы с динамическими источниками данных. Методология TURA строится на концепции Model Context Protocol (MCP), где каждый источник информации инкапсулируется в виде сервера, предоставляющего стандартизированный интерфейс доступа. Первый ключевой компонент - Intent-Aware Retrieval модуль, который реализует интеллектуальное декомпозирование пользовательских запросов. Этот модуль анализирует семантику запроса и автоматически определяет, какие источники информации необходимы для формирования полного ответа. Он способен различать запросы, требующие только статического контента, только динамических данных, или их комбинации, обеспечивая оптимальный выбор источников. Второй компонент - DAG-based Task Planner, который представляет собой планировщик задач на основе направленного ациклического графа (DAG). Этот компонент моделирует зависимости между различными подзадачами обработки запроса, позволяя максимально эффективно использовать параллельное выполнение. Например, при запросе о ценах на авиабилеты система может параллельно обращаться к API авиакомпаний для актуальных цен и к веб-документам для информации о маршрутах и условиях перелета. Третий компонент - Distilled Agent Executor представляет собой легковесный исполнитель агентных действий, оптимизированный для работы в условиях высокой нагрузки. Он реализует эффективный механизм вызова инструментов с минимальной задержкой, что критично для обеспечения низкой латентности в масштабной промышленной системе. Архитектура специально спроектирована для обработки миллионов параллельных запросов без потери производительности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация TURA проводилась в условиях реального промышленного развертывания, обслуживающего десятки миллионов пользователей. Для оценки эффективности системы использовался набор сложных тестовых запросов, включающих комбинации статических и динамических информационных потребностей. Бенчмарки включали запросы о наличии товаров в конкретных магазинах с реальным временем обновления, бронировании билетов с проверкой актуальности цен, и получении финансовой информации из различных источников с разной частотой обновления. Основной метрикой оценки служила полнота и точность предоставляемой информации при соблюдении строгих требований к латентности

Abstract

The advent of Large Language Models (LLMs) is transforming search engines into conversational AI search products, primarily using Retrieval-Augmented Generation (RAG) on web corpora. However, this paradigm has significant industrial limitations. Traditional RAG approaches struggle with real-time needs and structured queries that require accessing dynamically generated content like ticket availability or inventory. Limited to indexing static pages, search engines cannot perform the interactive queries needed for such time-sensitive data. Academic research has focused on optimizing RAG for static content, overlooking complex intents and the need for dynamic sources like databases and real-time APIs. To bridge this gap, we introduce TURA (Tool-Augmented Unified Retrieval Agent for AI Search), a novel three-stage framework that combines RAG with agentic tool-use to access both static content and dynamic, real-time information. TURA has three key components: an Intent-Aware Retrieval module to decompose queries and retrieve information sources encapsulated as Model Context Protocol (MCP) Servers, a DAG-based Task Planner that models task dependencies as a Directed Acyclic Graph (DAG) for optimal parallel execution, and a lightweight Distilled Agent Executor for efficient tool calling. TURA is the first architecture to systematically bridge the gap between static RAG and dynamic information sources for a world-class AI search product. Serving tens of millions of users, it leverages an agentic framework to deliver robust, real-time answers while meeting the low-latency demands of a large-scale industrial system.

Ссылки и действия