Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference
2509.07571v1
cs.MA, cs.AI
2025-09-11
Авторы:
Xiyu Guo, Shan Wang, Chunfang Ji, Xuefeng Zhao, Wenhao Xi, Yaoyao Liu, Qinglan Li, Chao Deng, Junlan Feng
Резюме на русском
## Контекст
В последние годы стало всё яснее, что широкомасштабное внедрение ИИ в различные сферы жизнедеятельности требует решения проблем связанных с эффективностью и стоимостью выполнения задач. Одним из ключевых проблемных моментов является то, что пользовательские запросы часто требуют обработки в разных доменах и с различными типами задач. Это создаёт сложную задачу роутинга: как правильно направить каждый запрос на соответствующую систему для обработки, чтобы максимизировать эффективность и обеспечить высокое качество выполнения. Например, запросы в сфере экономики, медицины или интернета вещей могут требовать различных типов моделей или агентов. **MoMA (Mixture of Models and Agents)** предлагается как решение для этих проблем, предлагая универсальную систему роутинга, которая использует модели ИИ для точной расстановки запросов и рационального распределения ресурсов.
## Метод
**MoMA** оперирует системой "Микс моделей и агентов", которая объединяет модели ИИ с разного рода агентами. Методология предполагает развитие профиля каждой модели и агента, чтобы понять их сильные стороны и ограничения. Эта профилировка позволяет выбирать наиболее подходящую модель или агента для выполнения конкретного запроса. Разработана стратегия динамического выбора моделей и агентов, которая опирается на контекстные сигналы и маскирование. Для улучшения роутинга, был создан богатый набор данных, который позволяет профилировать модели и агенты в различных условиях. Это позволит адаптировать систему к разным запросам, обеспечивая максимальную эффективность и стоимость.
## Результаты
Исследования показали, что **MoMA** существенно превосходит существующие методы в области роутинга по нескольким ключевым показателям. Например, **MoMA** обеспечивает высокое качество набора экспериментов, используя различные модели и агенты. Одним из основных показателей является эффективность роутинга: **MoMA** демонстрирует улучшение стоимости и производительности на значительные значения по сравнению с другими подходами. Это достигается за счёт точной расстановки запросов на основании их специфических особенностей и требований, а также с помощью рационального управления ресурсами. Эксперименты проводились на различных наборах данных, чтобы проверить устойчивость и кросс-доменную эффективность модели.
## Значимость
**MoMA** может быть применена в различных доменах, включая экономические системы, здравоохранение, интернет-технологии и многие другие, где требуется эффективное управление запросами. Одним из основных преимуществ является **высокая эффективно
Abstract
The rapid advancement of large language models (LLMs) and domain-specific AI
agents has greatly expanded the ecosystem of AI-powered services. User queries,
however, are highly diverse and often span multiple domains and task types,
resulting in a complex and heterogeneous landscape. This diversity presents a
fundamental routing challenge: how to accurately direct each query to an
appropriate execution unit while optimizing both performance and efficiency. To
address this, we propose MoMA (Mixture of Models and Agents), a generalized
routing framework that integrates both LLM and agent-based routing. Built upon
a deep understanding of model and agent capabilities, MoMA effectively handles
diverse queries through precise intent recognition and adaptive routing
strategies, achieving an optimal balance between efficiency and cost.
Specifically, we construct a detailed training dataset to profile the
capabilities of various LLMs under different routing model structures,
identifying the most suitable tasks for each LLM. During inference, queries are
dynamically routed to the LLM with the best cost-performance efficiency. We
also introduce an efficient agent selection strategy based on a context-aware
state machine and dynamic masking. Experimental results demonstrate that the
MoMA router offers superior cost-efficiency and scalability compared to
existing approaches.
Ссылки и действия
Дополнительные ресурсы: