WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing
2509.18004v1
cs.CL, cs.SD
2025-09-24
Авторы:
Yuhang Dai, Ziyu Zhang, Shuai Wang, Longhao Li, Zhao Guo, Tianlun Zuo, Shuiyuan Wang, Hongfei Xue, Chengyou Wang, Qing Wang, Xin Xu, Hui Bu, Jie Li, Jian Kang, Binbin Zhang, Lei Xie
Резюме на русском
#### Контекст
Диалектный говор, включая Sichuanese (хаккайский), является важной частью китайского языка, но часто лишается должного внимания в исследованиях по звуковой технологии. Это обусловлено существующими проблемами: недостаток больших, открытых данных, ограниченная доступность ресурсов и слабая формальная поддержка в области звукового моделирования. Эти факторы приводят к ограниченному развитию технологий для диалектного звукового моделирования и придают особое значение мотивации для создания полного корпуса, облегчающего исследования в этой области.
#### Метод
WenetSpeech-Chuan разработан с использованием **Chuan-Pipeline** — комплексной системы для обработки данных диалектного говора. Эта система обеспечивает полный цикл подготовки данных, включая сбор, очистку, аннотацию и валидацию. В качестве результата был получен корпус в размере 10,000 часов, содержащий разнообразные аудиозаписи и многоуровневые аннотации для слов, фонем, дикторов и других сущностей. Были также разработаны ряд тестовых наборов данных (WenetSpeech-Chuan-Eval) для точного оценивания результатов ASR (распознавания речи) и TTS (синтеза речи).
#### Результаты
Эксперименты показали, что модели, обученные на WenetSpeech-Chuan, достигли статуса лучших среди открытых решений, показав результаты, которые приближаются к результатам коммерческих систем. Авторы также продемонстрировали, что данный корпус позволяет значительно улучшить базовые характеристики моделей ASR и TTS, снизив порог вхождения для исследователей и облегчив процесс разработки технологий для диалектного звукового моделирования.
#### Значимость
WenetSpeech-Chuan может быть применен в разработке новых технологий для распознавания речи и синтеза речи, нацеленных на диалектные языки. Он способствует развитию AI с принципами эквити и сокращением разрывов в развитии технологий для разных региональных диалектов. В будущем, корпус может применяться в других районах Китая для повышения доступности звуковых моделей для других диалектов.
#### Выводы
WenetSpeech-Chuan является крупнейшим открытым корпусом для Sichuanese, который способствует созданию более честных и эффективных звуковых моделей для диалектов. Будущие исследования будут сфокусированы на расширении этого корпуса для других диалектов, а также на развитии глобальных технологий для диалектного звукового моделирования.
Abstract
The scarcity of large-scale, open-source data for dialects severely hinders
progress in speech technology, a challenge particularly acute for the widely
spoken Sichuanese dialects of Chinese. To address this critical gap, we
introduce WenetSpeech-Chuan, a 10,000-hour, richly annotated corpus constructed
using our novel Chuan-Pipeline, a complete data processing framework for
dialectal speech. To facilitate rigorous evaluation and demonstrate the
corpus's effectiveness, we also release high-quality ASR and TTS benchmarks,
WenetSpeech-Chuan-Eval, with manually verified transcriptions. Experiments show
that models trained on WenetSpeech-Chuan achieve state-of-the-art performance
among open-source systems and demonstrate results comparable to commercial
services. As the largest open-source corpus for Sichuanese dialects,
WenetSpeech-Chuan not only lowers the barrier to research in dialectal speech
processing but also plays a crucial role in promoting AI equity and mitigating
bias in speech technologies. The corpus, benchmarks, models, and receipts are
publicly available on our project page.
Ссылки и действия
Дополнительные ресурсы: