ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs

2508.08895v1 cs.CL, cs.AI 2025-08-14

Авторы:

Keyu Chen, Zhifeng Shen, Daohai Yu, Haoqian Wu, Wei Wen, Jianfeng He, Ruizhi Qiao, Xing Sun

Резюме на русском

## Контекст Главная проблема, которая ограничивает производительность больших языковых моделей (LLMs), лежит в своей последовательной природе декодирования. Эта структура требует предсказания токенов по очереди, что приводит к заметным задержкам и неэффективности. Далее, необходимость скорости и эффективности в приложениях, таких как боты-помощники и системы ответа на вопросы, возникает как реальное задание. Однако, внутренние свойства самих LLMs могут быть использованы для решения этих проблем: некоторые сегменты ответов могут быть выделены как потенциально параллельные. Этот факт мотивирует разработку методов, которые могут эффективно комбинировать серийное и параллельное декодирование. ## Метод Предлагается новый подход, называемый Adaptive Serial-Parallel Decoding (ASPD). Он работает над двумя основными задачами: автоматическом выявлении параллельных структур в ответах LLMs и реализацией гибкой системы, которая мгновенно переключается между серийным и параллельным декодированием. Для выявления таких структур вводится нейтральная методология, которая извлекает и проверяет эти сегменты на предмет параллельности. Для эффективного выполнения параллельных задач введен Hybrid Decoding Engine, который может переключаться между серийным и параллельным режимами с минимальным издержанием. Эта система обеспечивает реальное параллельное исполнение нескольких ответов с сохранением качества. ## Результаты Результаты опробованы на различных задачах, включая General Tasks, Retrieval-Augmented Generation и Mathematical Reasoning. ASPD показала скоростной прирост до 3.19x на Vicuna Bench, сохранив качество ответов на уровне 1% от стандартных авторегрессионных моделей. Это достижение означает значительную ускорение работы систем без ущерба к качеству ответов, что делает ASPD применимой в производительных сценариях, таких как системы ответа на вопросы и сервисы клиентской поддержки. ## Значимость Разработанный подход может быть использован в разных областях, где необходима чрезвычайная скорость ответов, таких как системы ответа на вопросы, боты-помощники и системы онлайн-помощи. Он предоставляет значительные преимущества в скорости и эффективности, что позволяет выполнять эти задачи в автоматическом режиме без потери в качестве. В будущем, ASPD может стать ключевым элементом для создания более производительных и быстрых систем AI, которые могут быть использованы в реальном времени. ## Выводы ASPD показалася эффективной стратегией для переключения между серийным и параллельным декодированием LLMs. Она доказала свою эффективность в различных задачах и зарекомендовала себя как мощный инструмент для ускорения работы языковых моделей. Будущ

Abstract

The increasing scale and complexity of large language models (LLMs) pose significant inference latency challenges, primarily due to their autoregressive decoding paradigm characterized by the sequential nature of next-token prediction. By re-examining the outputs of autoregressive models, we observed that some segments exhibit parallelizable structures, which we term intrinsic parallelism. Decoding each parallelizable branch simultaneously (i.e. parallel decoding) can significantly improve the overall inference speed of LLMs. In this paper, we propose an Adaptive Serial-Parallel Decoding (ASPD), which addresses two core challenges: automated construction of parallelizable data and efficient parallel decoding mechanism. More specifically, we introduce a non-invasive pipeline that automatically extracts and validates parallelizable structures from the responses of autoregressive models. To empower efficient adaptive serial-parallel decoding, we implement a Hybrid Decoding Engine which enables seamless transitions between serial and parallel decoding modes while maintaining a reusable KV cache, maximizing computational efficiency. Extensive evaluations across General Tasks, Retrieval-Augmented Generation, Mathematical Reasoning, demonstrate that ASPD achieves unprecedented performance in both effectiveness and efficiency. Notably, on Vicuna Bench, our method achieves up to 3.19x speedup (1.85x on average) while maintaining response quality within 1% difference compared to autoregressive models, realizing significant acceleration without compromising generation quality. Our framework sets a groundbreaking benchmark for efficient LLM parallel inference, paving the way for its deployment in latency-sensitive applications such as AI-powered customer service bots and answer retrieval engines.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация