Adaptively Robust LLM Inference Optimization under Prediction Uncertainty

2508.14544v1 cs.LG, cs.AI, math.OC 2025-08-22

Авторы:

Zixi Chen, Yinyu Ye, Zijie Zhou

Резюме на русском

#### Контекст Ласточкиной проблемы, связанной с оптимизацией очередности выполнения задач в сервисных системах, приобрела новую роль в контексте больших языковых моделей (LLM). Эти модели широко применяются в различных областях, но их выполнение требует значительных вычислительных и энергетических ресурсов. Особенно критично эффективное управление ресурсами при выполнении последовательных запросов, которые включают неопределенность в длине выходных данных. Эта неопределенность может существенно сказываться на производительности и энергоэффективности. Цель данного исследования — разработать методы, позволяющие снизить задержки и энергопотребление в LLM-инференсе, используя прогнозирование длины выходных данных. #### Метод Для решения проблемы неопределенности в длине выходных данных LLM используется гибкий подход, основанный на машинном обучении. Модели предлагаются прогнозировать интервалы длины выходных данных для каждого запроса, точность которых может отличаться. Разработаны два алгоритма: 1. **Алгоритм $\mathcal{A}_{\max}$**: основывается на использовании верхней границы прогнозируемого интервала длины для следующего запроса. Это позволяет избежать переполнения памяти, но может привести к избыточной задержке и энергопотреблению. 2. **Алгоритм $\mathcal{A}_{\min}$**: адаптивный алгоритм, который использует нижнюю границу прогнозируемого интервала для начальной оценки длины выходных данных. Затем он динамически апгрейдится в процессе выполнения запроса, учитывая получаемые данные. Эти методы стремятся минимизировать задержки и энергоэффективность, при этом учитывая неопределенность в прогнозировании. #### Результаты Исследование включает в себя симуляции для оценки производительности алгоритмов в различных условиях неопределенности. Найдено, что $\mathcal{A}_{\min}$ показывает наилучшие результаты в сравнении с $\mathcal{A}_{\max}$, особенно при снижении точности прогнозов. Данный алгоритм достигает конкурентного отношения, приближенного к логарифмическому масштабу, что делает его эффективным и надежным в практических ситуациях. Также показано, что $\mathcal{A}_{\min}$ значительно эффективнее по сравнению с другими методами, особенно при ситуациях с низкой точностью прогнозов. #### Значимость Разработанные методы могут быть применены в системах, требующих эффективного управления ресурсами, таких как облачные сервисы, системы реального времени и автоматизированные системы. Особым преимуществом является уменьшение задержек и потребления энергии, что может привлечь интерес у разработчиков и операторов таких систем. Будущие исследова

Abstract

We study the problem of optimizing Large Language Model (LLM) inference scheduling to minimize total latency. LLM inference is an online and multi-task service process and also heavily energy consuming by which a pre-trained LLM processes input requests and generates output tokens sequentially. Therefore, it is vital to improve its scheduling efficiency and reduce the power consumption while a great amount of prompt requests are arriving. A key challenge in LLM inference scheduling is that while the prompt length is known upon arrival, the output length, which critically impacts memory usage and processing time, is unknown. To address this uncertainty, we propose algorithms that leverage machine learning to predict output lengths, assuming the prediction provides an interval classification (min-max range) for each request. We first design a conservative algorithm, $\mathcal{A}_{\max}$, which schedules requests based on the upper bound of predicted output lengths to prevent memory overflow. However, this approach is overly conservative: as prediction accuracy decreases, performance degrades significantly due to potential overestimation. To overcome this limitation, we propose $\mathcal{A}_{\min}$, an adaptive algorithm that initially treats the predicted lower bound as the output length and dynamically refines this estimate during inferencing. We prove that $\mathcal{A}_{\min}$ achieves a log-scale competitive ratio. Through numerical simulations, we demonstrate that $\mathcal{A}_{\min}$ often performs nearly as well as the hindsight scheduler, highlighting both its efficiency and robustness in practical scenarios. Moreover, $\mathcal{A}_{\min}$ relies solely on the lower bound of the prediction interval--an advantageous design choice since upper bounds on output length are typically more challenging to predict accurately.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Adaptively Robust LLM Inference Optimization under Prediction Uncertainty

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Frugality in second-order optimization: floating-point approximations for Newton...

Learning Branching Policies for MILPs with Proximal Policy Optimization

SMiLE: Provably Enforcing Global Relational Properties in Neural Networks

Q3R: Quadratic Reweighted Rank Regularizer for Effective Low-Rank Training

A Convexity-dependent Two-Phase Training Algorithm for Deep Neural Networks

Навигация