📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

2025-09-23

Авторы:

Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, Yueran Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

## Контекст Паралюнгвистические звуки, такие как смех и сиг, широко используются в генерации и понимании речи для создания более реалистичных и привлекательных голосовых моделей. Тем не менее, существующие методы часто опираются на закрытые данные, которые недоступны для общественности, либо используют открытые ресурсы, бедные качеством и отсутствием реальности. Эти проблемы приводят к затруднению обучения моделей на естественной паралюнгвистической речи. С другой стороны, доступные по открытому доступу данные часто отсутствуют или имеют неточные аннотации, что препятствует их использованию в нейронных сетях. Мы предлагаем разработать автоматизированный подход для построения больших паралюнгвистических датасетов, чтобы сделать доступными естественные семплы речи. ## Метод Мы разработали фреймворк SynParaSpeech, основанный на методам машинного обучения, для автоматической генерации паралюнгвистических данных. Наш метод производит набор паралюнгвистических звуков, включая смех, сиг, ухмылки и другие, с помощью синтеза речи от естественных диалогов. Мы использовали многоканальные сети для выделения паралюнгвистических звуков из голосовых записей, а затем аннотировали их с точными временными метками. Эта архитектура позволяет генерировать большие датасеты с высокой точностью и реалистичностью. ## Результаты Мы применили SynParaSpeech для построения датасета SynParaSpeech, состоящего из 6 паралюнгвистических категорий с общим объемом 118.75 часов. Данные получены с точными временными метками из реальных диалогов. Мы проверили качество датасета путем сравнения с мануально аннотированными данными и обнаружили высокую точность синтеза. Это позволяет значительно улучшить генерацию речи и обнаружение паралюнгвистических событий. ## Значимость Датасет SynParaSpeech открывает новые возможности в синтезе естественной паралюнгвистической речи, помогая моделям лучше понимать и генерировать звуки, которые часто отсутствуют в традиционных датасетах. Мы предоставили данные в открытом доступе для использования в различных задачах, включая синтез речи, детекцию паралюнгвистических событий, искусственный интеллект и улучшение речи. Этот подход может быть применен в многих сферах, включая развитие голосовых помощников, роботов-интерпретаторов, систем поддержки речи и психологических исследований. ## Выводы Мы представили SynParaSpeech, первый автоматизированный фреймворк для построения больших паралюнгвистических датасетов. Мы показали, что наш подход значительно улучшает качество генерации речи и понимания паралюнгвистич

Annotation:

Paralinguistic sounds, like laughter and sighs, are crucial for synthesizing more realistic and engaging speech. However, existing methods typically depend on proprietary datasets, while publicly available resources often suffer from incomplete speech, inaccurate or missing timestamps, and limited real-world relevance. To address these problems, we propose an automated framework for generating large-scale paralinguistic data and apply it to construct the SynParaSpeech dataset. The dataset compri...

ID: 2509.14946v2 eess.AS, cs.CL, I.2.7

arXiv PDF

📄 SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding

2025-09-20

Авторы:

Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, YueRan Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

## Контекст Паралюнгвистические звуки, такие как смех и сиг, являются ключевыми для создания более реалистичных и захватывающих речи. Однако существующие методы часто ограничиваются использованием проприетарных данных, тогда как свободно распространяемые ресурсы часто страдают от неполноты речи, неточности или отсутствия таймстемпов, а также от сильного ограничения на реальные условия. Данная работа стремится устранить эти проблемы, предложив автоматизированный подход для генерации больших объемов паралюнгвистических данных и создания датасета SynParaSpeech. Он включает шесть паралюнгвистических категорий с 118.75 часов данных, подробно оформленных с таймстемпами и собранными из естественных бесед. Вышел первый в своем роде метод для автоматического генерирования таких данных, что дает новые возможности для синтеза естественной паралюнгвистической речи и улучшения ее понимания. ## Метод Предлагаемый подход состоит в автоматизированной процедуре построения датасета, основанной на применении машинного обучения для идентификации паралюнгвистических событий в естественных речевых потоках. Используется глубокое нейронное сетевое устройство, которое обучается на меток паралюнгвистических событий из уже существующих датасетов. Оно способно определять и классифицировать такие события, даже в условиях шума и неточностей в звуковой структуре. Основным этапом является автоматическое размечвание данных с помощью метода группирования по аналогии и экспертной верификации, что обеспечивает точность и разнообразие результирующих данных. Метод целенаправленно используется для создания SynParaSpeech, посредством которого достигнуты высокие показатели в естественности синтезированной речи. ## Результаты Используя SynParaSpeech, проводились эксперименты, подтвердившие высокую точность классификации и синтеза паралюнгвистических звуков. Данные были сравнены с существующими датасетовами, и демонстрируются значительные преимущества в естественности и глубине понимания. Датасет был протестирован на различных задачах генерирования звука и распознавания паралюнгвистических событий. Результаты показали значительное улучшение качества речи и увеличение точности обнаружения паралюнгвистических событий в сравнении с базовыми методами. Эти результаты отражены в метриках, таких как F1-меру и точность распознавания. ## Значимость Основное применение SynParaSpeech заключается в синтезе естественной паралюнгвистической речи. Он может быть использован в разработке моделей распознавания речи, а также для создания новы

Annotation:

ID: 2509.14946v1 eess.AS, cs.CL, I.2.7

arXiv PDF