ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs

2508.08895v2 cs.CL, cs.AI 2025-08-15
Авторы:

Keyu Chen, Zhifeng Shen, Daohai Yu, Haoqian Wu, Wei Wen, Jianfeng He, Ruizhi Qiao, Xing Sun

Резюме на русском

## Контекст В последние годы, большие языковые модели (LLMs) стали неотъемлемой частью многих технологий, от процессов принятия решений до работы с клиентами. Однако их инференсная скорость часто ограничивается последовательным характером следующего-токена-предсказания, который характеризует авторегрессионный декодинг. Это приводит к замедлению интерфейса и неэффективности в реальном времени, особенно для сложных задач. Однако изучение выходов этих моделей показало, что некоторые фрагменты ответов могут быть распараллелены. Это подходящая момент для оптимизации инференса. Мы предлагаем новый подход, который не только эффективно раскладывает исходный поток данных на параллельные потоки, но и сохраняет качество предсказаний. ## Метод Мы предлагаем **Adaptive Serial-Parallel Decoding (ASPD)**, которая автоматически определяет и эффективно использует разделяемую структуру в выходах LLMs. Наша методология включает два основных элемента: 1. **Построение параллельных структур**: Мы разработали нейронную сеть, которая автоматически определяет шаблоны в выходах модели, которые могут быть распараллелены. Эта сеть работает в режиме реального времени и не требует каких-либо внешних изменений в модели. 2. **Эффективный движок для сериально-параллельного декодирования**: Мы предлагаем гибридную систему, которая динамически переключается между сериальным и параллельным декодированием. Она также поддерживает кэш-сервис реинициализации, чтобы минимизировать накладные расходы на вычисления и увеличить эффективность. ## Результаты Мы провели эксперименты на широком спектре задач: **General Tasks**, **Retrieval-Augmented Generation**, и **Mathematical Reasoning**. На Vicuna Bench, ASPD показала до 3.19x прирост скорости без существенного снижения качества. На среднем, полученный был 1.85x. Мы также проверили нашу модель на структурированных данных (датасеты с высокой параллельностью) и смешанных задачах, где наблюдали получение скорости в 2-3 раза. ## Значимость ASPD может быть применена в различных областях, включая: - **AI-powered customer service bots**: Разработка систем с задержкой в реальном времени. - **Answer retrieval engines**: Ускорение поиска ответов в больших базах. - **Real-time decision-making systems**: Для моделей, требующих быстрого реагирования. ASPD предлагает первоначальный шаг к более эффективной инференсной работе LLMs, позволяя получать дополнительные выигрыши в скорости без ущерба качеству. ## Выводы Мы представили **Adaptive Serial-Parallel Decoding (ASPD)**, которая использует ранее незадействованные структуры в выходах LLMs для ускорения инференса. Мы показали, что наш подход эффективен на различных задачах и может построи

Abstract

The increasing scale and complexity of large language models (LLMs) pose significant inference latency challenges, primarily due to their autoregressive decoding paradigm characterized by the sequential nature of next-token prediction. By re-examining the outputs of autoregressive models, we observed that some segments exhibit parallelizable structures, which we term intrinsic parallelism. Decoding each parallelizable branch simultaneously (i.e. parallel decoding) can significantly improve the overall inference speed of LLMs. In this paper, we propose an Adaptive Serial-Parallel Decoding (ASPD), which addresses two core challenges: automated construction of parallelizable data and efficient parallel decoding mechanism. More specifically, we introduce a non-invasive pipeline that automatically extracts and validates parallelizable structures from the responses of autoregressive models. To empower efficient adaptive serial-parallel decoding, we implement a Hybrid Decoding Engine which enables seamless transitions between serial and parallel decoding modes while maintaining a reusable KV cache, maximizing computational efficiency. Extensive evaluations across General Tasks, Retrieval-Augmented Generation, Mathematical Reasoning, demonstrate that ASPD achieves unprecedented performance in both effectiveness and efficiency. Notably, on Vicuna Bench, our method achieves up to 3.19x speedup (1.85x on average) while maintaining response quality within 1% difference compared to autoregressive models, realizing significant acceleration without compromising generation quality. Our framework sets a groundbreaking benchmark for efficient LLM parallel inference, paving the way for its deployment in latency-sensitive applications such as AI-powered customer service bots and answer retrieval engines.

Ссылки и действия