chDzDT: Word-level morphology-aware language model for Algerian social media text

2509.01772v1 cs.CL, cs.AI, I.2.7 2025-09-05
Авторы:

Abdelkrime Aries

Резюме на русском

#### Контекст Процессы прикладного языкознания на базе ИИ становятся все более важными в современном мире. Одна из основных проблем заключается в недостаточной представительности языков и диалектов в существующих моделях. Одним из таких подзабытых языков является алжирский диалект, который сильно отличается от стандартного арабского. Он отличается сложной морфологией, частым кодовым смешением, использованием разных письменностей и значительным влиянием других языков, таких как французский и берберский. Эти характеристики создают сложности при обработке текстов на этом языке. До этого момента было предложено несколько моделей, но они оставляют за собой значительные пробелы в представлении морфологических структур, что сказывается на качестве обработки текста. Учитывая эти проблемы, в статье предлагается chDzDT — модель, ориентированная на морфологию, разработанная специально для алжирского диалекта. #### Метод chDzDT — это морфологически ориентированная модель характера, разработанная на основе предварительно обученных моделей. Основное отличие в том, что она не оперирует токенами, как многие другие PLM, а использует слова в изолированном виде, что позволяет ей лучше учитывать множество морфологических характеристик. Модель обучена на широком корпусе, включающем комментарии к YouTube, варианты текстов на французском, английском и берберском языках, а также данные из проекта Tatoeba. Данный подход позволяет лучше учитывать морфологические подробности и устраняет некоторые проблемы, связанные с традиционными подходами. #### Результаты В ходе экспериментов был проведен подробный морфологический анализ алжирского диалекта, используя данные из YouTube. Был сформирован многоязычный лексикон-датасет, позволяющий повысить качество обучения. Была разработана и протестирована модель chDzDT, которая показала себя как эффективный инструмент для обработки текстов на алжирском диалекте. Модель показала значительные улучшения в решении задач, связанных с морфологией, и дала новые возможности для развития естественного языкового процессинга в данном регионе. #### Значимость chDzDT может использоваться в различных прикладных задачах, таких как текстовая классификация, генерация текстов и распознавание тональности. Эта модель предоставляет более точное представление морфологических структур, что позволяет улучшить качество решения задач, связанных с алжирским диалектом. Благодаря многоязычности и гибкости, модель может быть применена в разных контекстах, включая обработку данных в международных проектах. Такой подход мо

Abstract

Pre-trained language models (PLMs) have substantially advanced natural language processing by providing context-sensitive text representations. However, the Algerian dialect remains under-represented, with few dedicated models available. Processing this dialect is challenging due to its complex morphology, frequent code-switching, multiple scripts, and strong lexical influences from other languages. These characteristics complicate tokenization and reduce the effectiveness of conventional word- or subword-level approaches. To address this gap, we introduce chDzDT, a character-level pre-trained language model tailored for Algerian morphology. Unlike conventional PLMs that rely on token sequences, chDzDT is trained on isolated words. This design allows the model to encode morphological patterns robustly, without depending on token boundaries or standardized orthography. The training corpus draws from diverse sources, including YouTube comments, French, English, and Berber Wikipedia, as well as the Tatoeba project. It covers multiple scripts and linguistic varieties, resulting in a substantial pre-training workload. Our contributions are threefold: (i) a detailed morphological analysis of Algerian dialect using YouTube comments; (ii) the construction of a multilingual Algerian lexicon dataset; and (iii) the development and extensive evaluation of a character-level PLM as a morphology-focused encoder for downstream tasks. The proposed approach demonstrates the potential of character-level modeling for morphologically rich, low-resource dialects and lays a foundation for more inclusive and adaptable NLP systems.

Ссылки и действия