CARGO: A Framework for Confidence-Aware Routing of Large Language Models
2509.14899v1
cs.SE, cs.LG
2025-09-20
Авторы:
Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami
Резюме на русском
## Контекст
С появлением крупных языковых моделей (LLMs), развитие системы для эффективного их использования стало ключевым заданием для оптимизации производительности и стоимости. Одним из ключевых вопросов является выбор наилучшей модели для каждого запроса в зависимости от его характеристик. Это становится особенно важно при работе с моделями с разными специализациями и производительностью. Недостаток доступных данных для обучения моделей, а также высокая стоимость их тренировки, приводят к необходимости разработки эффективных фреймворков для их выбора. CARGO — это инновационный подход, нацеленный на достижение эффективного выбора моделей с учетом их достоинств и недостатков.
## Метод
CARGO представляет собой двухступенчатый подход к выбору модели. В первой стадии используется нейронная сеть, обученная на парных сравнениях моделей, для предсказания производительности моделей. Во второй стадии, когда необходимость в выборе модели неясна, применяется бинарный классификатор. Используя LLM-подобную архитектуру, CARGO обеспечивает надежный выбор моделей, включая категориальные модели для четкой области, таких как математика, кодирование, рассуждения, сводки и творческая письменность. Метод CARGO позволяет достичь профессионального качества выбора моделей с минимальной нагрузкой на вычисления.
## Результаты
CARGO был протестирован на 4 моделях LLMs: GPT-4o, Claude 3.5 Sonnet, DeepSeek V3 и Perplexity Sonar. Он показал высокую точность выбора (76.4%) и выигрышные результаты против любых индивидуальных моделей. Также CARGO был тестирован на категориальных моделях, показав выигрышные результаты в 5 задачных группах. Эти результаты подтверждают, что CARGO может обеспечить эффективное выбор моделей с минимальными ресурсами.
## Значимость
CARGO предлагает практическое решение для развертывания LLMs в реальном мире, где необходимо быстро выбирать модели в зависимости от задач. Он обеспечивает точный выбор моделей, сохраняя необходимое качество и снижая ресурсозатраты. CARGO может применяться в различных сферах, например, в образовании, техническом сопровождении и творчестве.
## Выводы
Разработка CARGO достигла преемственного шага в выборе моделей LLMs, обеспечивая профессиональное качество выбора, даже с ограниченными ресурсами. Будущие исследования будут сосредоточены на расширении области применения CARGO и его интеграции с разными типами моделей.
Abstract
As large language models (LLMs) proliferate in scale, specialization, and
latency profiles, the challenge of routing user prompts to the most appropriate
model has become increasingly critical for balancing performance and cost. We
introduce CARGO (Category-Aware Routing with Gap-based Optimization), a
lightweight, confidence-aware framework for dynamic LLM selection. CARGO
employs a single embedding-based regressor trained on LLM-judged pairwise
comparisons to predict model performance, with an optional binary classifier
invoked when predictions are uncertain. This two-stage design enables precise,
cost-aware routing without the need for human-annotated supervision. To capture
domain-specific behavior, CARGO also supports category-specific regressors
trained across five task groups: mathematics, coding, reasoning, summarization,
and creative writing. Evaluated on four competitive LLMs (GPT-4o, Claude 3.5
Sonnet, DeepSeek V3, and Perplexity Sonar), CARGO achieves a top-1 routing
accuracy of 76.4% and win rates ranging from 72% to 89% against individual
experts. These results demonstrate that confidence-guided, lightweight routing
can achieve expert-level performance with minimal overhead, offering a
practical solution for real-world, multi-model LLM deployments.
Ссылки и действия
Дополнительные ресурсы: