WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

2509.18004v1 cs.CL, cs.SD 2025-09-24

Авторы:

Yuhang Dai, Ziyu Zhang, Shuai Wang, Longhao Li, Zhao Guo, Tianlun Zuo, Shuiyuan Wang, Hongfei Xue, Chengyou Wang, Qing Wang, Xin Xu, Hui Bu, Jie Li, Jian Kang, Binbin Zhang, Lei Xie

Резюме на русском

#### Контекст Диалектный говор, включая Sichuanese (хаккайский), является важной частью китайского языка, но часто лишается должного внимания в исследованиях по звуковой технологии. Это обусловлено существующими проблемами: недостаток больших, открытых данных, ограниченная доступность ресурсов и слабая формальная поддержка в области звукового моделирования. Эти факторы приводят к ограниченному развитию технологий для диалектного звукового моделирования и придают особое значение мотивации для создания полного корпуса, облегчающего исследования в этой области. #### Метод WenetSpeech-Chuan разработан с использованием **Chuan-Pipeline** — комплексной системы для обработки данных диалектного говора. Эта система обеспечивает полный цикл подготовки данных, включая сбор, очистку, аннотацию и валидацию. В качестве результата был получен корпус в размере 10,000 часов, содержащий разнообразные аудиозаписи и многоуровневые аннотации для слов, фонем, дикторов и других сущностей. Были также разработаны ряд тестовых наборов данных (WenetSpeech-Chuan-Eval) для точного оценивания результатов ASR (распознавания речи) и TTS (синтеза речи). #### Результаты Эксперименты показали, что модели, обученные на WenetSpeech-Chuan, достигли статуса лучших среди открытых решений, показав результаты, которые приближаются к результатам коммерческих систем. Авторы также продемонстрировали, что данный корпус позволяет значительно улучшить базовые характеристики моделей ASR и TTS, снизив порог вхождения для исследователей и облегчив процесс разработки технологий для диалектного звукового моделирования. #### Значимость WenetSpeech-Chuan может быть применен в разработке новых технологий для распознавания речи и синтеза речи, нацеленных на диалектные языки. Он способствует развитию AI с принципами эквити и сокращением разрывов в развитии технологий для разных региональных диалектов. В будущем, корпус может применяться в других районах Китая для повышения доступности звуковых моделей для других диалектов. #### Выводы WenetSpeech-Chuan является крупнейшим открытым корпусом для Sichuanese, который способствует созданию более честных и эффективных звуковых моделей для диалектов. Будущие исследования будут сфокусированы на расширении этого корпуса для других диалектов, а также на развитии глобальных технологий для диалектного звукового моделирования.

Abstract

The scarcity of large-scale, open-source data for dialects severely hinders progress in speech technology, a challenge particularly acute for the widely spoken Sichuanese dialects of Chinese. To address this critical gap, we introduce WenetSpeech-Chuan, a 10,000-hour, richly annotated corpus constructed using our novel Chuan-Pipeline, a complete data processing framework for dialectal speech. To facilitate rigorous evaluation and demonstrate the corpus's effectiveness, we also release high-quality ASR and TTS benchmarks, WenetSpeech-Chuan-Eval, with manually verified transcriptions. Experiments show that models trained on WenetSpeech-Chuan achieve state-of-the-art performance among open-source systems and demonstrate results comparable to commercial services. As the largest open-source corpus for Sichuanese dialects, WenetSpeech-Chuan not only lowers the barrier to research in dialectal speech processing but also plays a crucial role in promoting AI equity and mitigating bias in speech technologies. The corpus, benchmarks, models, and receipts are publicly available on our project page.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dialect Identification Using Resource-Efficient Fine-Tuning Approaches

A new kid on the block: Distributional semantics predicts the word-specific tone...

CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokk...

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Tex...

CantoASR: Prosody-Aware ASR-LALM Collaboration for Low-Resource Cantonese

Навигация