Dynamic Speculative Agent Planning

2509.01920v1 cs.AI, cs.LG, cs.MA 2025-09-05
Авторы:

Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang

Резюме на русском

#### Контекст Модели языка с трансформерами (LLM) достигли впечатляющих результатов в обработке текста, что привело к их широкому распространению в различных сферах. Однако работа этих моделей требует высоких ресурсов, включая высокую задержку и высокие затраты на выполнение запросов. Эти ограничения становятся критическими для применения в реальном времени, где требуется быстрая реакция и экономичность. Несмотря на развитие методов ускорения, такие как декомпозиция модели (модель управления), они имеют серьезные недостатки, такие как потеря точности, требование дорогостоящих операций во время обучения или ограниченную гибкость в управлении затратами. Наша модель Dynamic Speculative Planning (DSP) предлагается как решение этих проблем, предлагая гибкое решение для ускорения, сохраняя качество и уменьшая затраты. #### Метод DSP является асинхронным фреймворком онлайн-обучения на основе подкрепления, который включает в себя спекулятивную планировку. Он работает за счет асинхронного выполнения нескольких вариантов планирования, что позволяет оптимизировать объективный функционал, сбалансировав задержку и экономические затраты. Для этого используется модель управления, которая принимает решения о том, какие варианты должны быть выполнены или прерваны, чтобы минимизировать общий конечно-классовый риск. Этот подход позволяет снизить общие затраты на выполнение запросов, при этом сохраняя высокую точность и поддерживая оптимальный баланс между скоростью и экономичностью. #### Результаты Мы провести эксперименты на двух стандартных наборах данных для оценки DSP. Он показал себя эффективно, достигая скорости работы, сопоставимой с самыми быстрыми методами ускорения, при этом существенно снижая общую стоимость работы. В сравнении с другими подходами, DSP уменьшил затраты на 30%, а также уменьшил необходимые затраты на 60%. Эти результаты подтверждают, что DSP не только эффективен, но и гибкий, позволяя пользователю регулировать торговую стоимость системы. #### Значимость DSP может быть использован в различных сферах, где требуется быстрая и экономичная обработка текста, таких как системы рекомендации, поисковые системы и диалоговые системы. Он предоставляет преимущество в скорости и экономичности, без потери качества. Это делает его привлекательным для приложений, где быстрота ответа и экономичность являются ключевыми факторами. #### Выводы Мы представили Dynamic Speculative Planning, мощный подход для ускорения обработки запросов в моделях языка, который позволяет достичь высокой эффективности и гибкости. В будущем, наша работа будет направлена на расширение возможностей DSP, в

Abstract

Despite their remarkable success in complex tasks propelling widespread adoption, large language-model-based agents still face critical deployment challenges due to prohibitive latency and inference costs. While recent work has explored various methods to accelerate inference, existing approaches suffer from significant limitations: they either fail to preserve performance fidelity, require extensive offline training of router modules, or incur excessive operational costs. Moreover, they provide minimal user control over the tradeoff between acceleration and other performance metrics. To address these gaps, we introduce Dynamic Speculative Planning (DSP), an asynchronous online reinforcement learning framework that provides lossless acceleration with substantially reduced costs without requiring additional pre-deployment preparation. DSP explicitly optimizes a joint objective balancing end-to-end latency against dollar cost, allowing practitioners to adjust a single parameter that steers the system toward faster responses, cheaper operation, or any point along this continuum. Experiments on two standard agent benchmarks demonstrate that DSP achieves comparable efficiency to the fastest lossless acceleration method while reducing total cost by 30% and unnecessary cost up to 60%. Our code and data are available through https://github.com/guanyilin428/Dynamic-Speculative-Planning.

Ссылки и действия