Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation
2508.13525v1
cs.CL, cs.LG
2025-08-21
Авторы:
Hassan Barmandah
Резюме на русском
#### Контекст
В настоящее время большие языковые модели (LLMs) для арабского языка ориентированы на Модерн Стандартный Арабский (MSA), но поддержка диалектов, таких как Наджди и Хиджази, остается ограниченной. Это затрудняет достижение полной контрольности и точности генерируемого контента. Хотя существуют усилия по развитию моделей для диалектов, они сталкиваются с проблемами, такими как нехватка качественных данных и нарушение метаданных. Мы выделяем это проблему, сосредотачиваясь на Наджди и Хиджази, диалектах, широко говорящихся в Ар scholarship. В нашем исследовании мы стремимся упростить процесс генерирования текста в этих диалектах, улучшив контроль и точность текстов, что повысит качество интерактивных систем и снизит метаданные-эхо.
#### Метод
Мы использовали модель ALLaM-7B-Instruct-preview — первую фундаментальную модель, разработанную в Саудовской Аравии. Модель была прикручена к новой LoRA (Low-Rank Adaptation) для генерирования текста на Наджди и Хиджази. Мы изучили два подхода: (i) **Dialect-Token Training**, в котором для каждого запроса добавляется префиксный тег диалекта; и (ii) **No-Token Training**, в котором такой тег опускается. Мы тренировали модель на приватно скомпилированном Corpus Saudi Dialect Instruction (5,466 instruction-response pairs; 50/50 split) и оценивали её на запасном наборе данных средствами external dialect classifier (для контроля языка) и fidelity metrics (chrF++ и BERTScore). Наша модель была сравнена с другими инструктивными моделями, такими как Falcon-7B-Instruct, Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, AceGPT-v2-8B-Chat и JAIS-13B-Chat.
#### Результаты
Модель Dialect-Token показала значительные улучшения в контроле диалекта, увеличив процент генерируемых надждийских и хиджазийских текстов с 47.97% до 84.21% и снизив процент MSA-leakage с 32.63% до 6.21%. Это привело к повышению точности текстов с chrF++ +3.53 и BERTScore +0.059. No-Token Training также демонстрировал повышение, но в меньшей степени. Мы также сравнили нашу модель с другими инструктивными моделями, демонстрируя её превосходство в контроле диалекта и точности. Однако подобные модели часто сталкиваются с проблемой метаданных-эхо, которая отсутствует в нашей реализации.
#### Значимость
Наша модель демонстрирует повышенную контрольность и точность в генерировании текстов на Наджди и Хиджази. Это делает её применимой в системах разговорных помощников, генерации текстов для социальных сетей и других приложениях, где точность и контроль языка критически важны. Мы не выпускаем данные или модели в открытом доступе, но предоставляем код для обучения, оценки и интерпретации, чтобы поддержать проверяемо
Abstract
Large language models (LLMs) for Arabic are still dominated by Modern
Standard Arabic (MSA), with limited support for Saudi dialects such as Najdi
and Hijazi. This underrepresentation hinders their ability to capture authentic
dialectal variation. Using a privately curated Saudi Dialect Instruction
dataset (Hijazi and Najdi; 5,466 synthetic instruction-response pairs; 50/50
split), we LoRA-tune ALLaM-7B-Instruct-preview, the first foundation model
developed in Saudi Arabia, for Saudi dialect generation. We investigate two
variants: (i) Dialect-Token training, which prepends an explicit dialect tag to
the instruction, and (ii) No-Token training, which omits the tag at formatting
time. Evaluation on a held-out test set combines an external dialect classifier
with text fidelity metrics (chrF++ and BERTScore) and diversity measures. The
Dialect-Token model achieves the best control, raising the Saudi rate from
47.97% to 84.21% and reducing MSA leakage from 32.63% to 6.21%; fidelity also
improves (chrF++ +3.53, BERTScore +0.059). Both LoRA variants outperform strong
generic instruction models (Falcon-7B-Instruct, Llama-3.1-8B-Instruct,
Qwen-2.5-7B-Instruct, AceGPT-v2-8B-Chat, JAIS-13B-Chat) in dialect control and
fidelity, while avoiding metadata-tag echoing that these baselines frequently
exhibit. We do not release the dataset or any model weights/adapters; instead,
we release training/evaluation/inference code and a detailed datasheet (schema
and aggregate statistics) to support independent verification.
Ссылки и действия
Дополнительные ресурсы: