SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

2509.14946v1 eess.AS, cs.CL, I.2.7 2025-09-20
Авторы:

Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, YueRan Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

Резюме на русском

## Контекст Паралюнгвистические звуки, такие как смех и сиг, являются ключевыми для создания более реалистичных и захватывающих речи. Однако существующие методы часто ограничиваются использованием проприетарных данных, тогда как свободно распространяемые ресурсы часто страдают от неполноты речи, неточности или отсутствия таймстемпов, а также от сильного ограничения на реальные условия. Данная работа стремится устранить эти проблемы, предложив автоматизированный подход для генерации больших объемов паралюнгвистических данных и создания датасета SynParaSpeech. Он включает шесть паралюнгвистических категорий с 118.75 часов данных, подробно оформленных с таймстемпами и собранными из естественных бесед. Вышел первый в своем роде метод для автоматического генерирования таких данных, что дает новые возможности для синтеза естественной паралюнгвистической речи и улучшения ее понимания. ## Метод Предлагаемый подход состоит в автоматизированной процедуре построения датасета, основанной на применении машинного обучения для идентификации паралюнгвистических событий в естественных речевых потоках. Используется глубокое нейронное сетевое устройство, которое обучается на меток паралюнгвистических событий из уже существующих датасетов. Оно способно определять и классифицировать такие события, даже в условиях шума и неточностей в звуковой структуре. Основным этапом является автоматическое размечвание данных с помощью метода группирования по аналогии и экспертной верификации, что обеспечивает точность и разнообразие результирующих данных. Метод целенаправленно используется для создания SynParaSpeech, посредством которого достигнуты высокие показатели в естественности синтезированной речи. ## Результаты Используя SynParaSpeech, проводились эксперименты, подтвердившие высокую точность классификации и синтеза паралюнгвистических звуков. Данные были сравнены с существующими датасетовами, и демонстрируются значительные преимущества в естественности и глубине понимания. Датасет был протестирован на различных задачах генерирования звука и распознавания паралюнгвистических событий. Результаты показали значительное улучшение качества речи и увеличение точности обнаружения паралюнгвистических событий в сравнении с базовыми методами. Эти результаты отражены в метриках, таких как F1-меру и точность распознавания. ## Значимость Основное применение SynParaSpeech заключается в синтезе естественной паралюнгвистической речи. Он может быть использован в разработке моделей распознавания речи, а также для создания новы

Abstract

Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset comprises 6 paralinguistic categories with 118.75 hours of data and precise timestamps, all derived from natural conversational speech. Our contributions lie in introducing the first automated method for constructing large-scale paralinguistic datasets and releasing the SynParaSpeech corpus, which advances speech generation through more natural paralinguistic synthesis and enhances speech understanding by improving paralinguistic event detection. The dataset and audio samples are available at https://github.com/ShawnPi233/SynParaSpeech.

Ссылки и действия

Связанные статьи

SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generat...

## Контекст Паралюнгвистические звуки, такие как смех и сиг, широко используются в генерации и понимании речи для создан...

2025-09-23