chDzDT: Word-level morphology-aware language model for Algerian social media text
2509.01772v1
cs.CL, cs.AI, I.2.7
2025-09-05
Авторы:
Abdelkrime Aries
Резюме на русском
#### Контекст
Процессы прикладного языкознания на базе ИИ становятся все более важными в современном мире. Одна из основных проблем заключается в недостаточной представительности языков и диалектов в существующих моделях. Одним из таких подзабытых языков является алжирский диалект, который сильно отличается от стандартного арабского. Он отличается сложной морфологией, частым кодовым смешением, использованием разных письменностей и значительным влиянием других языков, таких как французский и берберский. Эти характеристики создают сложности при обработке текстов на этом языке. До этого момента было предложено несколько моделей, но они оставляют за собой значительные пробелы в представлении морфологических структур, что сказывается на качестве обработки текста. Учитывая эти проблемы, в статье предлагается chDzDT — модель, ориентированная на морфологию, разработанная специально для алжирского диалекта.
#### Метод
chDzDT — это морфологически ориентированная модель характера, разработанная на основе предварительно обученных моделей. Основное отличие в том, что она не оперирует токенами, как многие другие PLM, а использует слова в изолированном виде, что позволяет ей лучше учитывать множество морфологических характеристик. Модель обучена на широком корпусе, включающем комментарии к YouTube, варианты текстов на французском, английском и берберском языках, а также данные из проекта Tatoeba. Данный подход позволяет лучше учитывать морфологические подробности и устраняет некоторые проблемы, связанные с традиционными подходами.
#### Результаты
В ходе экспериментов был проведен подробный морфологический анализ алжирского диалекта, используя данные из YouTube. Был сформирован многоязычный лексикон-датасет, позволяющий повысить качество обучения. Была разработана и протестирована модель chDzDT, которая показала себя как эффективный инструмент для обработки текстов на алжирском диалекте. Модель показала значительные улучшения в решении задач, связанных с морфологией, и дала новые возможности для развития естественного языкового процессинга в данном регионе.
#### Значимость
chDzDT может использоваться в различных прикладных задачах, таких как текстовая классификация, генерация текстов и распознавание тональности. Эта модель предоставляет более точное представление морфологических структур, что позволяет улучшить качество решения задач, связанных с алжирским диалектом. Благодаря многоязычности и гибкости, модель может быть применена в разных контекстах, включая обработку данных в международных проектах. Такой подход мо
Abstract
Pre-trained language models (PLMs) have substantially advanced natural
language processing by providing context-sensitive text representations.
However, the Algerian dialect remains under-represented, with few dedicated
models available. Processing this dialect is challenging due to its complex
morphology, frequent code-switching, multiple scripts, and strong lexical
influences from other languages. These characteristics complicate tokenization
and reduce the effectiveness of conventional word- or subword-level approaches.
To address this gap, we introduce chDzDT, a character-level pre-trained
language model tailored for Algerian morphology. Unlike conventional PLMs that
rely on token sequences, chDzDT is trained on isolated words. This design
allows the model to encode morphological patterns robustly, without depending
on token boundaries or standardized orthography. The training corpus draws from
diverse sources, including YouTube comments, French, English, and Berber
Wikipedia, as well as the Tatoeba project. It covers multiple scripts and
linguistic varieties, resulting in a substantial pre-training workload.
Our contributions are threefold: (i) a detailed morphological analysis of
Algerian dialect using YouTube comments; (ii) the construction of a
multilingual Algerian lexicon dataset; and (iii) the development and extensive
evaluation of a character-level PLM as a morphology-focused encoder for
downstream tasks. The proposed approach demonstrates the potential of
character-level modeling for morphologically rich, low-resource dialects and
lays a foundation for more inclusive and adaptable NLP systems.
Ссылки и действия
Дополнительные ресурсы: