UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

2509.21144v1 cs.SD, cs.AI 2025-09-27

Авторы:

Sitong Cheng, Weizhen Bian, Xinsheng Wang, Ruibin Yuan, Jianyi Chen, Shunshun Yin, Yike Guo, Wei Xue

Резюме на русском

## Контекст Область исследования связана с развитием технологии экспрессивной речи-к-речи (S2ST, Speech-to-Speech Translation). Целью этой технологии является точное переводение речи, сохраняя эмоциональный стиль и личность речи. Несмотря на прогрессы, три основных проблемы ограничивают развитие этой области: ограниченность количества парных семантических данных, сохраняющих эмоциональный стиль; сложность многоэтапных процессинговых цепочек; и слабое влияние больших текстовых моделей на голосовые модели. Данное исследование целеустремлено устранить эти проблемы, обеспечив непрерывный трансформационный подход в S2ST с использованием новых моделей и данных. ## Метод Предложенный UniSS (Unified Expressive Speech-to-Speech Translation) — это одноэтапная система, которая соединяет моделирование семантики и эмоционального стиля речи в едином процессе. Основной идеей является интеграция текстовых моделей с голосовыми, чтобы сделать модель трансляции более мощной и универсальной. Для передачи эмоционального стиля и голоса между языками используется цепочка-мышления (chain-of-thought), которая передает текстовые модели особенности речи. Для обучения и оценки системы разработана большая высококачественная база данных UniST, содержащая 44.8k часов звуковых данных. ## Результаты Эксперименты показали, что UniSS превосходит предыдущие модели по фидбэку достоверности и качеству голоса. Модель успешно сохраняет эмоциональный стиль и личность речи в переводе, даже при переводе на другие языки. Результаты подтверждают, что UniSS не только повышает точность перевода, но и обеспечивает естественность речи, сохраняя эмоциональную глубину и стиль речи. ## Значимость Данная работа открывает новые возможности в области экспрессивной S2ST, показав возможность создания моделей, которые сохраняют не только смысл речи, но и эмоциональные особенности речи. Она может быть применена в сферах, где важно сохранение эмоционального контекста в интернациональных коммуникациях, обучении или туризме. Благодаря единой системе моделирования UniSS значительно упрощается процесс развития экспрессивных S2ST-систем, что может привести к более широкому распространению этой технологии. ## Выводы UniSS достигает существенного прогресса в области экспрессивной S2ST, объединяя моделирование семантики и эмоционального стиля в единой системе. Она показала эффективность и превосходство по сравнению с предыдущими моделями. В дальнейшем будут проводиться исследования для улучшения качества звучания и дополнительного тренирования моделей для разных языков и стилей речи.

Abstract

The ultimate goal of expressive speech-to-speech translation (S2ST) is to accurately translate spoken content while preserving the speaker identity and emotional style. However, progress in this field is largely hindered by three key challenges: the scarcity of paired speech data that retains expressive styles, the complexity of multi-stage processing pipelines, and the limited transfer of translation capabilities from large language models (LLMs). In this work, we address these challenges by introducing UniSS, a novel single-stage framework for expressive S2ST. Our approach features carefully designed speech semantic and style modeling, enabling seamless integration with existing text-based LLM frameworks to develop a unified text-speech language model. To transfer translation capabilities from text to speech, we propose a cross-modal chain-of-thought prompting process that progressively aligns audio semantics with text and ensures style preservation in the decoded results. Furthermore, we construct and release a large-scale, high-quality expressive S2ST dataset, UniST, comprising 44.8k hours of data. Experimental results show that UniSS significantly outperforms previous methods in translation fidelity and speech quality while preserving voice, emotion, and duration consistency. Our work establishes a simpler and more effective paradigm for building the next generation of expressive S2ST systems. Audio samples are available at https://cmots.github.io/uniss-demo.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация