SimulMEGA: MoE Routers are Advanced Policy Makers for Simultaneous Speech Translation
2509.01200v1
cs.CL, cs.SD, eess.AS
2025-09-05
Авторы:
Chenyang Le, Bing Han, Jinshun Li, Songyong Chen, Yanmin Qian
Резюме на русском
## Контекст
Simultaneous Speech Translation (SimulST) представляет собой подвид машинного перевода, где задача заключается в реальном времени переводе речи с одного языка на другой, при этом обеспечивая минимальные задержки. Эта область исследований важна для применений, таких как международное общение, медицина и техническая поддержка. Однако существующие системы сталкиваются с проблемами балансировки качества перевода, задержки и сохранения семантического контекста, особенно при многоязычных много-к-много сценариях. Эти задачи усложняются временными ограничениями и нерегулярностью потоков речи. Мотивацией для разработки SimulMEGA лежит необходимость создать систему, которая может эффективно решать эти проблемы, обеспечивая качественные результаты в многоязычных средах.
## Метод
SimulMEGA — это неучитывающая рамы (unsupervised) рамочная модель, основанная на технологии mixture-of-experts (MoE). Модель объединяет принципы шифрования префикса (prefix-based training) и моделирования экспертов (Mixture-of-Experts refiner) для обучения решений ввода-вывода в рамках трансформеров. Решения о вводе и выводе принимаются с помощью скрытого политики, не добавляя дополнительных затрат на вычисления во время предсказания. Архитектура SimulMEGA включает в себя модифицированные трансформеры, где Mixture-of-Experts gating модули изменяют поток данных в зависимости от контекста. Этот подход позволяет модели легко адаптироваться для различных типов задач, включая speech-to-text и text-to-speech streaming.
## Результаты
Авторы тестировали модель SimulMEGA на 6 языковых парах в сценариях SimulST. Модель показала значительные улучшения в сравнении с Seamless baseline. Например, в 500M параметров модель для speech-to-text поддерживает BLEU-скоры при минимальных задержках, не превышающих 1.5 секунды. Также она показала хорошие результаты при более высоких задержках, до 3 секунд. Была продемонстрирована и возможность модели для расширения в область streaming TTS, где она показала высокую эффективность в сравнении с другими моделями.
## Значимость
Модель SimulMEGA может быть применена в различных областях, включая международное общение, удаленную поддержку, медицину и техническую поддержку. Она предлагает несколько преимуществ, включая лучший баланс между качеством перевода, задержкой и общим временем обработки. Потенциальное влияние заключается в том, что SimulMEGA может стать базой для развития систем, обеспечивающих многоязычную коммуникацию с минимальными задержками и высоким качеством.
## Выводы
Результаты исследований показывают, что SimulMEGA является эффективным решением для SimulST, обеспечивая качественный перевод с минимальными задержками в различных сценариях. В будущем могу
Abstract
Simultaneous Speech Translation (SimulST) enables real-time cross-lingual
communication by jointly optimizing speech recognition and machine translation
under strict latency constraints. Existing systems struggle to balance
translation quality, latency, and semantic coherence, particularly in
multilingual many-to-many scenarios where divergent read and write policies
hinder unified strategy learning. In this paper, we present SimulMEGA
(Simultaneous Generation by Mixture-of-Experts Gating), an unsupervised policy
learning framework that combines prefix-based training with a
Mixture-of-Experts refiner to learn effective read and write decisions in an
implicit manner, without adding inference-time overhead. Our design requires
only minimal modifications to standard transformer architectures and
generalizes across both speech-to-text and text-to-speech streaming tasks.
Through comprehensive evaluation on six language pairs, our 500M parameter
speech-to-text model outperforms the Seamless baseline, achieving under 7
percent BLEU degradation at 1.5 seconds average lag and under 3 percent at 3
seconds. We further demonstrate the versatility of SimulMEGA by extending it to
streaming TTS with a unidirectional backbone, yielding superior latency quality
tradeoffs.
Ссылки и действия
Дополнительные ресурсы: