Dynamic Speculative Agent Planning
2509.01920v1
cs.AI, cs.LG, cs.MA
2025-09-05
Авторы:
Yilin Guan, Wenyue Hua, Qingfeng Lan, Sun Fei, Dujian Ding, Devang Acharya, Chi Wang, William Yang Wang
Резюме на русском
#### Контекст
Модели языка с трансформерами (LLM) достигли впечатляющих результатов в обработке текста, что привело к их широкому распространению в различных сферах. Однако работа этих моделей требует высоких ресурсов, включая высокую задержку и высокие затраты на выполнение запросов. Эти ограничения становятся критическими для применения в реальном времени, где требуется быстрая реакция и экономичность. Несмотря на развитие методов ускорения, такие как декомпозиция модели (модель управления), они имеют серьезные недостатки, такие как потеря точности, требование дорогостоящих операций во время обучения или ограниченную гибкость в управлении затратами. Наша модель Dynamic Speculative Planning (DSP) предлагается как решение этих проблем, предлагая гибкое решение для ускорения, сохраняя качество и уменьшая затраты.
#### Метод
DSP является асинхронным фреймворком онлайн-обучения на основе подкрепления, который включает в себя спекулятивную планировку. Он работает за счет асинхронного выполнения нескольких вариантов планирования, что позволяет оптимизировать объективный функционал, сбалансировав задержку и экономические затраты. Для этого используется модель управления, которая принимает решения о том, какие варианты должны быть выполнены или прерваны, чтобы минимизировать общий конечно-классовый риск. Этот подход позволяет снизить общие затраты на выполнение запросов, при этом сохраняя высокую точность и поддерживая оптимальный баланс между скоростью и экономичностью.
#### Результаты
Мы провести эксперименты на двух стандартных наборах данных для оценки DSP. Он показал себя эффективно, достигая скорости работы, сопоставимой с самыми быстрыми методами ускорения, при этом существенно снижая общую стоимость работы. В сравнении с другими подходами, DSP уменьшил затраты на 30%, а также уменьшил необходимые затраты на 60%. Эти результаты подтверждают, что DSP не только эффективен, но и гибкий, позволяя пользователю регулировать торговую стоимость системы.
#### Значимость
DSP может быть использован в различных сферах, где требуется быстрая и экономичная обработка текста, таких как системы рекомендации, поисковые системы и диалоговые системы. Он предоставляет преимущество в скорости и экономичности, без потери качества. Это делает его привлекательным для приложений, где быстрота ответа и экономичность являются ключевыми факторами.
#### Выводы
Мы представили Dynamic Speculative Planning, мощный подход для ускорения обработки запросов в моделях языка, который позволяет достичь высокой эффективности и гибкости. В будущем, наша работа будет направлена на расширение возможностей DSP, в
Abstract
Despite their remarkable success in complex tasks propelling widespread
adoption, large language-model-based agents still face critical deployment
challenges due to prohibitive latency and inference costs. While recent work
has explored various methods to accelerate inference, existing approaches
suffer from significant limitations: they either fail to preserve performance
fidelity, require extensive offline training of router modules, or incur
excessive operational costs. Moreover, they provide minimal user control over
the tradeoff between acceleration and other performance metrics. To address
these gaps, we introduce Dynamic Speculative Planning (DSP), an asynchronous
online reinforcement learning framework that provides lossless acceleration
with substantially reduced costs without requiring additional pre-deployment
preparation. DSP explicitly optimizes a joint objective balancing end-to-end
latency against dollar cost, allowing practitioners to adjust a single
parameter that steers the system toward faster responses, cheaper operation, or
any point along this continuum. Experiments on two standard agent benchmarks
demonstrate that DSP achieves comparable efficiency to the fastest lossless
acceleration method while reducing total cost by 30% and unnecessary cost up to
60%. Our code and data are available through
https://github.com/guanyilin428/Dynamic-Speculative-Planning.
Ссылки и действия
Дополнительные ресурсы: