A RoBERTa-Based Functional Syntax Annotation Model for Chinese Texts
2509.04046v1
cs.CL, I.2.7
2025-09-06
Авторы:
Han Xiaohui, Zhang Yunlong, Guo Yuxi
Резюме на русском
#### Контекст
Систематическая функциональная грамматика (Systemic Functional Grammar, SFG) и её ветвь, кардиффская грамматика, широко применяются в дискурс-анализе, исследованиях семантических функций и других задачах по разным языкам и текстам. Однако автоматизированная система аннотации на основе этой теории для китайских текстов до сих пор отсутствует. Это существенно ограничивает применение и распространение соответствующих теорий. Данное исследование предлагает новую модель аннотации функциональной синтаксической грамматики для китайских текстов, основанную на RoBERTa (Robustly Optimized BERT Pretraining Approach). Модель позволяет автоматизировать анализ языковой структуры китайских текстов, облегчая их исследования и применение в различных областях.
#### Метод
Модель тренировалась на основе 4,100 словажных предложений из корпуса People's Daily 2014. Для обучения использовался fine-tuning метод, применяясь к модели RoBERTa-Chinese wwm-ext. Эта модель была адаптирована для распознавания именованных сущностей (Named Entity Recognition, NER). Задачу NER решались на основе теории функциональной синтаксической грамматики, что позволило обнаружить основные синтаксические элементы как Subject (S), Main Verb (M), так и Complement (C). Алгоритмы были разработаны с использованием технологий интенсивной обработки текстов и методов машинного обучения.
#### Результаты
В ходе экспериментов был получен F1-метр в 0.852 для тестового набора данных, что значительно превосходит результаты других сравнимых моделей. Модель аннотировала языковые элементы текста, получив высокую точность в распознавании главных синтаксических компонентов. Однако обнаружены проблемы при работе с балансом меток в небольших классах сущностей. Это ставит перед тем, что ещё есть потенциал для улучшения модели, особенно при работе с редкими или неравномерно распределенными классами.
#### Значимость
Разработанная модель может применяться в решении задач естественного языкового процессинга (NLP), включая дискурс-анализ, семантическое исследование текстов и другие задачи, где требуется функциональный анализ языка. Особенно она подходит для языков с богатой синтаксической структурой, таких как китайский. Модель демонстрирует высокую эффективность в распознавании синтаксических структур и имеет перспективу для расширения в другие естественные языки, что может способствовать более широкому применению теории функциональной синтаксической грамматики в машинном обучении.
#### Выводы
Данное исследование представляет первую попытку интеграции теории функциональной синтаксическо
Abstract
Systemic Functional Grammar and its branch, Cardiff Grammar, have been widely
applied to discourse analysis, semantic function research, and other tasks
across various languages and texts. However, an automatic annotation system
based on this theory for Chinese texts has not yet been developed, which
significantly constrains the application and promotion of relevant theories. To
fill this gap, this research introduces a functional syntax annotation model
for Chinese based on RoBERTa (Robustly Optimized BERT Pretraining Approach).
The study randomly selected 4,100 sentences from the People's Daily 2014 corpus
and annotated them according to functional syntax theory to establish a dataset
for training. The study then fine-tuned the RoBERTa-Chinese wwm-ext model based
on the dataset to implement the named entity recognition task, achieving an F1
score of 0.852 on the test set that significantly outperforms other comparative
models. The model demonstrated excellent performance in identifying core
syntactic elements such as Subject (S), Main Verb (M), and Complement (C).
Nevertheless, there remains room for improvement in recognizing entities with
imbalanced label samples. As the first integration of functional syntax with
attention-based NLP models, this research provides a new method for automated
Chinese functional syntax analysis and lays a solid foundation for subsequent
studies.
Ссылки и действия
Дополнительные ресурсы: