Self-Speculative Biased Decoding for Faster Live Translation

2509.21740v1 cs.CL, cs.AI, cs.LG 2025-09-30
Авторы:

Linxiao Zeng, Haoyun Deng, Kangyuan Shu, Shizhen Wang

Резюме на русском

## Контекст Стремительный развитость технологий и рост интереса к многоязычным платформам позволили вступить в новую эру в области текстовой генерации и перевода. Large Language Models (LLMs) доказали свою выдающуюся мощь в различных текстовых задачах. Однако их применение в реальном времени, например в live translation, становится значительным техническим вызовом. Требования к высокой точности и минимальной задержке накладывают труднотипизируемые ограничения на модели. Эти ограничения становятся актуальными в streaming applications, где требуется непрерывное обновление текста в реальном времени, опираясь на постоянно растущий входной контекст. Разработка методов, которые обеспечат высокую производительность без компромиссов в отношении качества, является ключевым мотивом для дальнейших исследований. ## Метод Self-Speculative Biased Decoding — это новая парадигма для Decoding, разработанная для ускорения live translation. Основная идея заключается в использовании наиболее свежего выхода модели как "черновика" для выхода в текущем контексте. Этот "черновик" проверяется на соответствие, и если он проходит, он принимается без повторных вычислений. Этот подход минимизирует "фликаринг" (смены текста), что улучшает удобочитаемость, и оказывает влияние на увеличение скорости вывода. Изначально, модель продолжает работу после проверки, используя существующие механизмы до тех пор, пока не будет достигнуто условие завершения трансляции. Отличие от других спекулятивных алгоритмов заключается в том, что данный подход не требует создания черновика, что делает его модельно-независимым и легко интегрируемым в различные модели. ## Результаты Проведены эксперименты на задаче simultaneous text-to-text re-translation. Результаты показали, что Self-Speculative Biased Decoding увеличивает скорость вывода до 1.7x в сравнении с традиционными авторегрессионными методами, не ухудшая качество трансляции. Наблюдался существенный снижение ритмичности текста на 80% при использовании метода mask-k, который ограничивает отображение только необходимого текста. Этот подход оказался эффективным в сокращении количества редактирований, что положительно сказалось на качестве пользовательского опыта. ## Значимость Предлагаемый подход представляет собой значительный шаг вперед в области real-time NLP applications. Он не только ускоряет процесс перевода, но и улучшает качество взаимодействия с пользователем, выступая в качестве модельно-независимой и простой в интеграции системы. Этот метод может быть применен в таких областях, как автоматический перевод, ассистенты на основе NLP, и другие стриминговые приложения, где нужно быстро обрабатывать и преобразовывать текст. В будущем, данный подход может быть расширен для включ

Abstract

Large Language Models (LLMs) have recently demonstrated impressive capabilities in various text generation tasks. However, it remains challenging to use them off-the-shelf in streaming applications (such as live translation), where the output must continually update as the input context expands, while still maintaining a reasonable computational cost to meet the latency requirement. In this work, we reexamine the re-translation approach to simultaneous translation and propose Self-Speculative Biased Decoding, a novel inference paradigm designed to avoid repeatedly generating output from scratch for a consistently growing input stream. We propose using the most recent output as a draft for the current growing input context. During the verification stage, the output will be biased towards the draft token for a higher draft acceptance rate. This strategy not only minimizes flickering that might distract users but also leads to higher speedups. Conventional decoding may take charge from the point of divergence after draft verification and continue until the end condition is met. Unlike existing speculative decoding strategies, our approach eliminates the need for draft computations, making it a model-agnostic and plug-and-play solution for accelerating latency-sensitive streaming applications. Experimental results on simultaneous text-to-text re-translation demonstrate that our approach achieves up to 1.7x speedup compared to conventional auto-regressive re-translation without compromising quality. Additionally, it significantly reduces flickering by 80% by incorporating the display-only mask-k technique.

Ссылки и действия