Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference

2509.07571v2 cs.MA, cs.AI 2025-09-12
Авторы:

Xiyu Guo, Shan Wang, Chunfang Ji, Xuefeng Zhao, Wenhao Xi, Yaoyao Liu, Qinglan Li, Chao Deng, Junlan Feng

Резюме на русском

## Контекст В последние годы развитие бо LARGE LANGUAGE MODELS (LLMs) и дOMAIN-SPECIFIC AI AGENTS значительно расширило экосистему AI-подобных сервисов. Однако пользовательские запросы являются очень разнообразными и часто покрывают многообразные темы и задачи, образуя хетерогенную среду. Эта сложность приводит к существенной проблеме: как эффективно и точно направить каждый запрос к соответствующему выполняющему его модулю, с учетом оптимального баланса между эффективностью и затратами. Из этого потребности возникает мотивация для разработки модели, которая могла бы решить эту задачу, обеспечивая быструю и точную маршрутизацию запросов в различных сценариях. ## Метод Чтобы решить эту проблему, мы предлагаем **MoMA (Mixture of Models and Agents)** — расширенную фреймворк для маршрутизации, который объединяет LLM и agent-based routing. Он основывается на глубоком понимании моделей и агентов, что позволяет точно определять их способности и оптимальное использование. Мы создаем подробную датасет для профилирования моделей и агентов, чтобы определить точные задачи, для которых они являются наиболее эффективными. Во время работы фреймворк использует динамическую маршрутизацию, направляя запросы к моделям с наиболее высоким эффективностью. Кроме того, мы предлагаем стратегию для выбора агентов, основанную на контекстно-отзывчивой системе состояний и динамической маскировке, чтобы улучшить эффективность и уменьшить затраты. ## Результаты Мы проводили эксперименты с различными данными, чтобы проверить работу MoMA. Мы оценивали точность направления запросов, эффективность выполнения и стоимость работы. Результаты показали, что MoMA превосходит другие существующие подходы по этим метрикам. Например, в сценарии с многообразными запросами, где требуется сбалансированный подход, MoMA показал более высокую эффективность и меньшую задержку по сравнению с другими методами. Это подтверждает его устойчивость и гибкость в различных сценариях применения. ## Значимость MoMA предлагает широкие области применения, включая облачные сервисы, бизнес-аналитику, рекомендательные системы и другие AI-powered сервисы. Он обеспечивает более эффективную и точную маршрутизацию, что приводит к улучшению качества и экономичности систем. Его преимущества заключаются в том, что он может адаптироваться к различным запросам и моделям, обеспечивая оптимальный баланс между производительностью и затратами. Это может привести к повышению производительности в различных AI-системах, облегчив разработку и поддержание этих систем. ## Выводы MoMA представляет собой успешный подход к расширенной ма

Abstract

The rapid advancement of large language models (LLMs) and domain-specific AI agents has greatly expanded the ecosystem of AI-powered services. User queries, however, are highly diverse and often span multiple domains and task types, resulting in a complex and heterogeneous landscape. This diversity presents a fundamental routing challenge: how to accurately direct each query to an appropriate execution unit while optimizing both performance and efficiency. To address this, we propose MoMA (Mixture of Models and Agents), a generalized routing framework that integrates both LLM and agent-based routing. Built upon a deep understanding of model and agent capabilities, MoMA effectively handles diverse queries through precise intent recognition and adaptive routing strategies, achieving an optimal balance between efficiency and cost. Specifically, we construct a detailed training dataset to profile the capabilities of various LLMs under different routing model structures, identifying the most suitable tasks for each LLM. During inference, queries are dynamically routed to the LLM with the best cost-performance efficiency. We also introduce an efficient agent selection strategy based on a context-aware state machine and dynamic masking. Experimental results demonstrate that the MoMA router offers superior cost-efficiency and scalability compared to existing approaches.

Ссылки и действия