REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

2508.04946v1 cs.LG, cs.CL, eess.AS 2025-08-09
Авторы:

Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu

Резюме на русском

Адаптивная обработка языков, особенно в режиме одновременной передачи (SimulST), остается сложной задачей из-за конфликта между качеством перевода и задержкой. Авторы предлагают REINA (Regularized Entropy INformation Adaptation) — новую методологию оптимизации этого баланса. Основываясь на принципах информационной теории, REINA регулирует потери для обучения адаптивной стратегии, оптимально распределяющей ресурсы между ждать дополнительных данных и начать перевод. Это решение, примененное к нескольким языкам (французский, гибрид с немецким и испанским), показало сокращение задержек при сохранении высокого качества перевода. Основным выводом является, что REINA позволяет достичь сокращения задержки до 21%, сохранив высокую точность перевода в сравнении с другими подходами. Это значительно повышает эффективность SimulST-систем, улучшая задачу реалитийного времени в переводе.

Abstract

Simultaneous Speech Translation (SimulST) systems stream in audio while simultaneously emitting translated text or speech. Such systems face the significant challenge of balancing translation quality and latency. We introduce a strategy to optimize this tradeoff: wait for more input only if you gain information by doing so. Based on this strategy, we present Regularized Entropy INformation Adaptation (REINA), a novel loss to train an adaptive policy using an existing non-streaming translation model. We derive REINA from information theory principles and show that REINA helps push the reported Pareto frontier of the latency/quality tradeoff over prior works. Utilizing REINA, we train a SimulST model on French, Spanish and German, both from and into English. Training on only open source or synthetically generated data, we achieve state-of-the-art (SOTA) streaming results for models of comparable size. We also introduce a metric for streaming efficiency, quantitatively showing REINA improves the latency/quality trade-off by as much as 21% compared to prior approaches, normalized against non-streaming baseline BLEU scores.

Ссылки и действия