SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation

2509.01200v1 cs.CL, cs.SD, eess.AS 2025-09-05
Авторы:

Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian

Резюме на русском

## Контекст Simultaneous Speech Translation (SimulST) представляет собой подвид машинного перевода, где задача заключается в реальном времени переводе речи с одного языка на другой, при этом обеспечивая минимальные задержки. Эта область исследований важна для применений, таких как международное общение, медицина и техническая поддержка. Однако существующие системы сталкиваются с проблемами балансировки качества перевода, задержки и сохранения семантического контекста, особенно при многоязычных много-к-много сценариях. Эти задачи усложняются временными ограничениями и нерегулярностью потоков речи. Мотивацией для разработки SimulMEGA лежит необходимость создать систему, которая может эффективно решать эти проблемы, обеспечивая качественные результаты в многоязычных средах. ## Метод SimulMEGA — это неучитывающая рамы (unsupervised) рамочная модель, основанная на технологии mixture-of-experts (MoE). Модель объединяет принципы шифрования префикса (prefix-based training) и моделирования экспертов (Mixture-of-Experts refiner) для обучения решений ввода-вывода в рамках трансформеров. Решения о вводе и выводе принимаются с помощью скрытого политики, не добавляя дополнительных затрат на вычисления во время предсказания. Архитектура SimulMEGA включает в себя модифицированные трансформеры, где Mixture-of-Experts gating модули изменяют поток данных в зависимости от контекста. Этот подход позволяет модели легко адаптироваться для различных типов задач, включая speech-to-text и text-to-speech streaming. ## Результаты Авторы тестировали модель SimulMEGA на 6 языковых парах в сценариях SimulST. Модель показала значительные улучшения в сравнении с Seamless baseline. Например, в 500M параметров модель для speech-to-text поддерживает BLEU-скоры при минимальных задержках, не превышающих 1.5 секунды. Также она показала хорошие результаты при более высоких задержках, до 3 секунд. Была продемонстрирована и возможность модели для расширения в область streaming TTS, где она показала высокую эффективность в сравнении с другими моделями. ## Значимость Модель SimulMEGA может быть применена в различных областях, включая международное общение, удаленную поддержку, медицину и техническую поддержку. Она предлагает несколько преимуществ, включая лучший баланс между качеством перевода, задержкой и общим временем обработки. Потенциальное влияние заключается в том, что SimulMEGA может стать базой для развития систем, обеспечивающих многоязычную коммуникацию с минимальными задержками и высоким качеством. ## Выводы Результаты исследований показывают, что SimulMEGA является эффективным решением для SimulST, обеспечивая качественный перевод с минимальными задержками в различных сценариях. В будущем могу

Abstract

Simultaneous Speech Translation (SimulST) enables real-time cross-lingual communication by jointly optimizing speech recognition and machine translation under strict latency constraints. Existing systems struggle to balance translation quality, latency, and semantic coherence, particularly in multilingual many-to-many scenarios where divergent read and write policies hinder unified strategy learning. In this paper, we present SimulMEGA (Simultaneous Generation by Mixture-of-Experts Gating), an unsupervised policy learning framework that combines prefix-based training with a Mixture-of-Experts refiner to learn effective read and write decisions in an implicit manner, without adding inference-time overhead. Our design requires only minimal modifications to standard transformer architectures and generalizes across both speech-to-text and text-to-speech streaming tasks. Through comprehensive evaluation on six language pairs, our 500M parameter speech-to-text model outperforms the Seamless baseline, achieving under 7 percent BLEU degradation at 1.5 seconds average lag and under 3 percent at 3 seconds. We further demonstrate the versatility of SimulMEGA by extending it to streaming TTS with a unidirectional backbone, yielding superior latency quality tradeoffs.

Ссылки и действия