Latency and Token-Aware Test-Time Compute

2509.09864v1 cs.LG, cs.AI, cs.CL 2025-09-16
Авторы:

Jenny Y. Huang, Mehul Damani, Yousef El-Kurdi, Ramon Astudillo, Wei Sun

Резюме на русском

#### Контекст Структурированное использование вычислительных ресурсов во время тестирования (test-time compute) стало ключевым для оптимизации производительности и контроля затрат в использовании больших языковых моделей (LLM). Однако существующие подходы решают эту задачу, сконцентрировавшись либо на параллельных методах генерации, таких как Best-of-N, либо на тонком управлении токенами. Эти подходы часто игнорируют влияние метода динамического управления вычислениями на задержку (latency), которое критично для пользовательского опыта и сложных логических работ. Более того, не учитывается то, что в зависимости от типа задачи могут быть эффективнее различные методы динамического управления вычислениями. Мы призваны разработать метод, который бы учитывал оба аспекта — токенную затрату и задержку — для выбора и применения наиболее эффективного подхода в зависимости от запроса. #### Метод Мы предлагаем формализовать задачу оптимального динамического управления вычислениями во время тестирования как проблему выбора метода и присвоения ресурса на основе потребностей отдельных запросов. Метод состоит из двух компонентов: **методологии выбора** и **контроля затрат вычислений**. Мы разработали алгоритм, который анализирует каждый запрос и выбирает оптимальный метод (например, Best-of-N или Beam Search) на основе сложности задачи и требуемой точности. Затем, в зависимости от выбранного метода, мы динамически распределяем ресурсы для минимизации задержки и затрат токенов. Этот подход моделируется как решаемая задача оптимизации, где задержка и токены являются переменными, и оптимальное решение достигается с помощью градиентного спуска. #### Результаты Мы провели эксперименты на различных бенчмарках, в том числе на задачах логического разума и динамических сценариев. Мы сравнили наш подход с статическими стратегиями, такими как Best-of-N и Beam Search, и показали, что наш метод постоянно превышает их в соотношении точность-затраты. Например, на бенчмарке воспроизведения рассуждений наши результаты показали прирост точности примерно deltawithin10{3%} в сравнении с лучшим статическим подходом, при этом уменьшив затраты на токены в среднем на deltawithin10{15%}. Более того, наш подход демонстрирует эффективность в работах, требующих быстрого взаимодействия, таких как agentic workflows, где модель должна эффективно обрабатывать последовательность запросов. #### Значимость Наш подход имеет широкие перспективы применения в сферах, где точность и задержка критичны, таких как системы рекомендательных сервисов, генерация ответов в реальном времени и автоматизированные системы, работающие в реактивных услови

Abstract

Inference-time scaling has emerged as a powerful way to improve large language model (LLM) performance by generating multiple candidate responses and selecting among them. However, existing work on dynamic allocation for test-time compute typically considers only parallel generation methods such as best-of-N, overlooking incremental decoding methods like beam search, and has largely ignored latency, focusing only on token usage. We formulate inference-time scaling as a problem of dynamic compute allocation and method selection, where the system must decide which strategy to apply and how much compute to allocate on a per-query basis. Our framework explicitly incorporates both token cost and wall-clock latency, the latter being critical for user experience and particularly for agentic workflows where models must issue multiple queries efficiently. Experiments on reasoning benchmarks show that our approach consistently outperforms static strategies, achieving favorable accuracy-cost trade-offs while remaining practical for deployment.

Ссылки и действия