Unsupervised Learning and Representation of Mandarin Tonal Categories by a Generative CNN

2509.17859v1 cs.CL, cs.LG 2025-09-24

Авторы:

Kai Schenck, Gašper Beguš

Резюме на русском

## Контекст Моделирование тональных категорий в рамках неучительного обучения является одним из самых сложных заданий в области естественных языков. Говорение на мандарине, одним из китайских языков, представляет собой сложность из-за системы тонов, которые необходимо изучить. Тональные значения влияют на смысл слова, и их различия могут приводить к разным значениям. Настоящая статья предлагает метод, позволяющий моделировать тональные категории без использования меток, то есть на основе неучительного обучения. Эта задача важна, так как неучительное обучение позволяет создавать модели, близкие к естественному обучению, и позволяет изучить языковой квази-эксперимент. ## Метод Для разработки модели использовалось генеративное совмещенное искусственное нейронное сетевое устройство ciwGAN. Оно представляет собой систему, которая может генерировать звуки, синтезированные на основе данных. Модель была обучена на многоканальных аудиозаписях говорения на мандарине. Чтобы модель могла выделять тональные категории, необходимо было добавить механизмы внутреннего взаимодействия между слоями нейронной сети. Метод основывается на технических решениях, позволяющих связать звуки с тональными категориями. Архитектура сети реализует модель со слоями, позволяющими синтезировать и распознавать звуковые категории. ## Результаты Результаты экспериментов показывают, что модель сумела статистически значимо различать тональные категории. Особенно это заметно в случае модели, обученной только на голосах мужчин. Модели могут генерировать звуки, которые измеряются с помощью Ф0 (частота основного тона). Это подтверждает, что модель не только изучает тональные категории, но и учитывает систему, которая похожа на этапы постепенного изучения языка человеком. Также был разработан метод для анализа внутренних слоев сети, что позволяет проследить, как модель учится распознавать тональные категории. ## Значимость Модель, разработанная в рамках данной статьи, имеет широкие перспективы в области автоматического распознавания речи, генерации звуков, и моделирования естественных языков. Она может быть применена в синтезе речи, в обучении естественных языков, в исследованиях языковых систем. Также она может стать полезной для развития интеллектуальных систем, таких как chatbot’ы, которые должны понимать и генерировать звуки на разных языках. ## Выводы В результате данного исследования было показано, что генеративная нейронная сеть ciwGAN может учиться распознавать тональные категории на основе неучительного обучения. Эта модель может быть использована в различных областях, где т

Abstract

This paper outlines the methodology for modeling tonal learning in fully unsupervised models of human language acquisition. Tonal patterns are among the computationally most complex learning objectives in language. We argue that a realistic generative model of human language (ciwGAN) can learn to associate its categorical variables with Mandarin Chinese tonal categories without any labeled data. All three trained models showed statistically significant differences in F0 across categorical variables. The model trained solely on male tokens consistently encoded tone. Our results sug- gest that not only does the model learn Mandarin tonal contrasts, but it learns a system that corresponds to a stage of acquisition in human language learners. We also outline methodology for tracing tonal representations in internal convolutional layers, which shows that linguistic tools can contribute to interpretability of deep learning and can ultimately be used in neural experiments.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Learning and Representation of Mandarin Tonal Categories by a Generative CNN

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация