NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations

2508.04195v1 cs.SD, cs.AI, cs.LG 2025-08-09
Авторы:

Huan Liao, Qinke Ni, Yuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Паралингвистические вокализации, такие как смех, вздох, интерьекции типа "ум" или "о", являются важной частью естественной устной коммуникации. Они передают эмоции, намерения и социальные сигналы, которые невозможно выразить только с помощью лексического контекста. Однако традиционные системы автоматического распознования речи (ASR) и системы текст-в-голос (TTS) обычно игнорируют эти аспекты, сосредоточиваясь исключительно на лексическом контенте. Это приводит к недостатку выразительности и натуральности в синтезированной речи, что особенно заметно в многомодальных системах коммуникации. Несмотря на прогресс в области ASR и TTS, отсутствие интегрированных решений для распознавания и синтеза паралингвистических элементов остается ключевой проблемой. Многие существующие модели не способны эффективно обрабатывать невербальные звуки или управлять ими в процессе синтеза. Это ограничивает возможности создания высококачественных систем, способных моделировать человеческую речь во всей ее сложности. Мотивация данного исследования заключается в том, чтобы предложить комплексное решение, которое бы объединило распознавание и синтез паралингвистических вокализаций в единый рабочий процесс. Такой подход должен быть масштабируемым, контролируемым и применимым к разным языкам, в том числе к китайскому, где специфика языковой модели требует особого внимания к невербальным элементам речи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют NVSpeech – интегрированную и масштабируемую пайплайн для моделирования паралингвистических вокализаций. Этот подход включает три основных компонента: создание датасетов, моделирование ASR и контролируемый TTS. В первую очередь, был разработан набор данных из 48 430 ручно аннотированных утверждений с 18 категориями паралингвистических отметок на уровне слов. Этот датасет позволяет обучить модели распознавать и аннотировать паралингвистические элементы. Далее, разработана паралингвистически-ориентированная моделя ASR, которая включает паралингвистические отметок в процесс распознавания. Например, речь "You're so funny [Laughter]" будет распознана как сочетание лексических и невербальных элементов. Эта модель была использована для автоматического аннотирования большого набора данных из 174 179 утверждений (573 часа речи), полученных из китайского корпуса. Наконец, была проведена файнтюнинг TTS моделей на данных, полученных вручную и автоматически, что позволяет контролировать паралингвистические элементы в процессе синтеза речи. Эта функция позволяет вставлять паралингвистические элементы в любой момент речи, обеспечивая более естественную и выразительную модель речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проведены на китайском датасете, который включает в себя 573 часа речи с паралингвистическими аннотациями. Результаты показывают, что предложенная модель ASR достигает высокой точности в распознавании как лексических, так и невербальных элементов речи. TTS модель, обученная на этом датасете, показала высокую точность в воспроизведении паралингвистических вокализаций. Особенно заметно было улучшение выразительности синтезированной речи, когда паралингвистические элементы были вставлены в контексте. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ NVSpeech предлагает практические преимущества в областях, требующих высококачественной выразительной речи, таких как виртуальные помощники, электронные обучающие системы и мультимодальные системы коммуникации. Его способность контролировать паралингвистические элементы позволяет создавать более натуральную и адаптивную речь, что может улучшить взаимодействие между человеком и машиной. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ NVSpeech является первым открытым и масштабируемым решением для моделирования паралингвистических вокализаций в китайском языке. Он объединяет распознавание и синтез в единый процесс, что открывает пути для дальнейших исследований в области выразительной речи. Будущие исследования могут сосредоточиться на расширении датасетов, улучшении точности моделей и применении этого подхода к другим языкам и культурным контекстам.

Abstract

Paralinguistic vocalizations-including non-verbal sounds like laughter and breathing, as well as lexicalized interjections such as "uhm" and "oh"-are integral to natural spoken communication. Despite their importance in conveying affect, intent, and interactional cues, such cues remain largely overlooked in conventional automatic speech recognition (ASR) and text-to-speech (TTS) systems. We present NVSpeech, an integrated and scalable pipeline that bridges the recognition and synthesis of paralinguistic vocalizations, encompassing dataset construction, ASR modeling, and controllable TTS. (1) We introduce a manually annotated dataset of 48,430 human-spoken utterances with 18 word-level paralinguistic categories. (2) We develop the paralinguistic-aware ASR model, which treats paralinguistic cues as inline decodable tokens (e.g., "You're so funny [Laughter]"), enabling joint lexical and non-verbal transcription. This model is then used to automatically annotate a large corpus, the first large-scale Chinese dataset of 174,179 utterances (573 hours) with word-level alignment and paralingustic cues. (3) We finetune zero-shot TTS models on both human- and auto-labeled data to enable explicit control over paralinguistic vocalizations, allowing context-aware insertion at arbitrary token positions for human-like speech synthesis. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech offers the first open, large-scale, word-level annotated pipeline for expressive speech modeling in Mandarin, integrating recognition and synthesis in a scalable and controllable manner. Dataset and audio demos are available at https://nvspeech170k.github.io/.

Ссылки и действия