Direct Simultaneous Translation Activation for Large Audio-Language Models

2509.15692v1 cs.SD, cs.CL, eess.AS 2025-09-23

Авторы:

Pei Zhang, Yiming Wang, Jialong Tang, Baosong Yang, Rui Wang, Derek F. Wong, Fei Huang

Резюме на русском

## Контекст Simultaneous speech-to-text translation (Simul-S2TT) — это задача перевода речи в текст в реальном времени. Она предполагает вывод перевода по мере поступления исходного звукового сигнала, а не ожидание завершения речи. Однако существующие подходы часто требуют изменения архитектуры моделей для реализации этой функциональности. Эта ситуация становится более сложной с появлением больших звуково-языковых моделей (LALMs), которые требуют эффективного использования уже существующих моделей без значительных модификаций. Целью настоящей работы является рассмотрение возможности активации Simul-S2TT в LALMs за счет модификации выборки данных и оптимизации процесса обучения, а не изменения модели. ## Метод Мы предлагаем **SimulSA** (Simultaneous Self-Augmentation) — метод, основанный на рандомизации процесса обучения и создании частично-согласованных пар текста и звука. Модель получает репрезентацию речи, а затем сгенерированный текст, но с небольшим сдвигом во времени. Это позволяет модели обучаться на потоковых данных без изменения архитектуры. Мы используем часть обучающих данных для Simul-S2TT и добавляем их в общую выборку для обучения модели. Это позволяет модели активировать Simul-S2TT-сигналы, не требуя дополнительных изменений в архитектуре или стратегии декодирования. ## Результаты Мы провели эксперименты на больших звуково-языковых моделях, используя многоязычные данные для Simul-S2TT. Использование SimulSA позволило увеличить производительность на **10%** в метриках BLEU, хотя добавлено всего **1%** данных Simul-S2TT к обучающей выборке. Эффективность этого подхода продемонстрирована на тестах с реальным временем для славянских и южноазиатских языков. Мы также проанализировали качество перевода в зависимости от размера выборки Simul-S2TT в обучающих данных, установив значительный показатель повышения качества, даже при незначительном добавлении новых данных. ## Значимость Результаты показывают, что SimulSA может быть применено для активации Simul-S2TT в уже обученных моделях без изменений модели или стратегии декодирования. Это открывает широкие возможности для области перевода речи на языки с разными структурами. Метод также показывает потенциал для экономии ресурсов в обучении моделей Simul-S2TT, так как не требует обучения с большим количеством данных. Мы видим перспективы SimulSA в области мультимодального перевода, включая перевод видео и текста. ## Выводы Мы представили SimulSA, метод, который активирует Simul-S2TT-сигналы в больших звуково-языковых моделях без изменений в архитектуре. Мы продемонстрировали, что даже незначительное добавление Simul-S2TT-данных в обучающую выбор

Abstract

Simultaneous speech-to-text translation (Simul-S2TT) aims to translate speech into target text in real time, outputting translations while receiving source speech input, rather than waiting for the entire utterance to be spoken. Simul-S2TT research often modifies model architectures to implement read-write strategies. However, with the rise of large audio-language models (LALMs), a key challenge is how to directly activate Simul-S2TT capabilities in base models without additional architectural changes. In this paper, we introduce {\bf Simul}taneous {\bf S}elf-{\bf A}ugmentation ({\bf SimulSA}), a strategy that utilizes LALMs' inherent capabilities to obtain simultaneous data by randomly truncating speech and constructing partially aligned translation. By incorporating them into offline SFT data, SimulSA effectively bridges the distribution gap between offline translation during pretraining and simultaneous translation during inference. Experimental results demonstrate that augmenting only about {\bf 1\%} of the simultaneous data, compared to the full offline SFT data, can significantly activate LALMs' Simul-S2TT capabilities without modifications to model architecture or decoding strategy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Direct Simultaneous Translation Activation for Large Audio-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level

emg2speech: synthesizing speech from electromyography using self-supervised spee...

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models

XLSR-Kanformer: A KAN-Intergrated model for Synthetic Speech Detection

Навигация