CARGO: A Framework for Confidence-Aware Routing of Large Language Models

2509.14899v1 cs.SE, cs.LG 2025-09-20

Авторы:

Amine Barrak, Yosr Fourati, Michael Olchawa, Emna Ksontini, Khalil Zoghlami

Резюме на русском

## Контекст С появлением крупных языковых моделей (LLMs), развитие системы для эффективного их использования стало ключевым заданием для оптимизации производительности и стоимости. Одним из ключевых вопросов является выбор наилучшей модели для каждого запроса в зависимости от его характеристик. Это становится особенно важно при работе с моделями с разными специализациями и производительностью. Недостаток доступных данных для обучения моделей, а также высокая стоимость их тренировки, приводят к необходимости разработки эффективных фреймворков для их выбора. CARGO — это инновационный подход, нацеленный на достижение эффективного выбора моделей с учетом их достоинств и недостатков. ## Метод CARGO представляет собой двухступенчатый подход к выбору модели. В первой стадии используется нейронная сеть, обученная на парных сравнениях моделей, для предсказания производительности моделей. Во второй стадии, когда необходимость в выборе модели неясна, применяется бинарный классификатор. Используя LLM-подобную архитектуру, CARGO обеспечивает надежный выбор моделей, включая категориальные модели для четкой области, таких как математика, кодирование, рассуждения, сводки и творческая письменность. Метод CARGO позволяет достичь профессионального качества выбора моделей с минимальной нагрузкой на вычисления. ## Результаты CARGO был протестирован на 4 моделях LLMs: GPT-4o, Claude 3.5 Sonnet, DeepSeek V3 и Perplexity Sonar. Он показал высокую точность выбора (76.4%) и выигрышные результаты против любых индивидуальных моделей. Также CARGO был тестирован на категориальных моделях, показав выигрышные результаты в 5 задачных группах. Эти результаты подтверждают, что CARGO может обеспечить эффективное выбор моделей с минимальными ресурсами. ## Значимость CARGO предлагает практическое решение для развертывания LLMs в реальном мире, где необходимо быстро выбирать модели в зависимости от задач. Он обеспечивает точный выбор моделей, сохраняя необходимое качество и снижая ресурсозатраты. CARGO может применяться в различных сферах, например, в образовании, техническом сопровождении и творчестве. ## Выводы Разработка CARGO достигла преемственного шага в выборе моделей LLMs, обеспечивая профессиональное качество выбора, даже с ограниченными ресурсами. Будущие исследования будут сосредоточены на расширении области применения CARGO и его интеграции с разными типами моделей.

Abstract

As large language models (LLMs) proliferate in scale, specialization, and latency profiles, the challenge of routing user prompts to the most appropriate model has become increasingly critical for balancing performance and cost. We introduce CARGO (Category-Aware Routing with Gap-based Optimization), a lightweight, confidence-aware framework for dynamic LLM selection. CARGO employs a single embedding-based regressor trained on LLM-judged pairwise comparisons to predict model performance, with an optional binary classifier invoked when predictions are uncertain. This two-stage design enables precise, cost-aware routing without the need for human-annotated supervision. To capture domain-specific behavior, CARGO also supports category-specific regressors trained across five task groups: mathematics, coding, reasoning, summarization, and creative writing. Evaluated on four competitive LLMs (GPT-4o, Claude 3.5 Sonnet, DeepSeek V3, and Perplexity Sonar), CARGO achieves a top-1 routing accuracy of 76.4% and win rates ranging from 72% to 89% against individual experts. These results demonstrate that confidence-guided, lightweight routing can achieve expert-level performance with minimal overhead, offering a practical solution for real-world, multi-model LLM deployments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CARGO: A Framework for Confidence-Aware Routing of Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Language Models for Software Engineering: A Reproducibility Crisis

Neural Variable Name Repair: Learning to Rename Identifiers for Readability

stable-pretraining-v1: Foundation Model Research Made Simple

Agint: Agentic Graph Compilation for Software Engineering Agents

Is the Cure Still Worse Than the Disease? Test Overfitting by LLMs in Automated ...

Навигация