Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT

2508.13358v1 cs.CL, cs.AI 2025-08-21
Авторы:

Zeeshan Ahmed, Frank Seide, Niko Moritz, Ju Lin, Ruiming Xie, Simone Merello, Zhe Liu, Christian Fuegen

Резюме на русском

## Контекст В последние годы непрерывно растет интерес к реализации реального времени реализации систем перевода речи. Одним из основных вызовов является обеспечение высокого качества и низкой задержки в системах, объединяющих Автоматическое Речевое За reconition (ASR) и Машинный Перевод (MT). Несмотря на успех индивидуальных систем (ASR и MT), их комбинация в режиме реального времени для научного обслуживания клиентов остается трудной задачей. Этот доклад фокусируется на сложностях, связанных с эффективным использованием ASR и MT в системах перевода речи на устройствах. Основным мотивом является необходимость повышения качества и снижения задержки, чтобы обеспечить более естественное и быстродействующее взаимодействие в реальном времени. ## Метод Методология, разработанная в работе, основывается на каскадной архитектуре, объединяющей ASR и MT. Рассматривается многоуровневый подход для решения задачи синхронного перевода, в котором ASR обеспечивает динамическую транскрипцию, которая затем используется для MT. Оптимизация проводится с использованием техник, таких как привязка к контексту (когнитивная организация), эффективное предварительное удаление бита (time-out) и принудительная завершающая процедура (forced finalization). Эти методы позволяют сбалансировать качество перевода и задержку. Также в статье рассматривается использование лингвистических признаков, создаваемых ASR, для управления контекстом в MT. ## Результаты Система была протестирована в режиме реального времени, выполняя билингвальные переговоры между русским и английским языками. Эксперименты показали, что система сочетает высокий уровень качества перевода с низкой задержкой, превосходя традиционные системы. Было доказано, что применение техник, таких как привязка к контексту и эффективное распределение ресурсов, позволяет уменьшить задержку без существенного повреждения качества. Результаты показали, что система оказалась более эффективной, снизив задержку до значительного уровня, что делает ее пригодной для реального времени. ## Значимость Система предлагаемая в статье имеет широкие возможности для применения в технологиях, требующих реального времени перевода речи, таких как телекоммуникации, медицина, туризм и онлайн-обучение. Основное преимущество заключается в уменьшении задержки без потери качества, что значительно повышает эффективность. Эта разработка может положительно сказаться на развитии технологий, включая смартфоны, автомобили и роботы, которые требуют надежных систем реального времени. ## Выводы В итоге, предложенный подход доказал свою эффективност

Abstract

This paper tackles several challenges that arise when integrating Automatic Speech Recognition (ASR) and Machine Translation (MT) for real-time, on-device streaming speech translation. Although state-of-the-art ASR systems based on Recurrent Neural Network Transducers (RNN-T) can perform real-time transcription, achieving streaming translation in real-time remains a significant challenge. To address this issue, we propose a simultaneous translation approach that effectively balances translation quality and latency. We also investigate efficient integration of ASR and MT, leveraging linguistic cues generated by the ASR system to manage context and utilizing efficient beam-search pruning techniques such as time-out and forced finalization to maintain system's real-time factor. We apply our approach to an on-device bilingual conversational speech translation and demonstrate that our techniques outperform baselines in terms of latency and quality. Notably, our technique narrows the quality gap with non-streaming translation systems, paving the way for more accurate and efficient real-time speech translation.

Ссылки и действия