Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation

2508.13525v1 cs.CL, cs.LG 2025-08-21

Авторы:

Hassan Barmandah

Резюме на русском

#### Контекст В настоящее время большие языковые модели (LLMs) для арабского языка ориентированы на Модерн Стандартный Арабский (MSA), но поддержка диалектов, таких как Наджди и Хиджази, остается ограниченной. Это затрудняет достижение полной контрольности и точности генерируемого контента. Хотя существуют усилия по развитию моделей для диалектов, они сталкиваются с проблемами, такими как нехватка качественных данных и нарушение метаданных. Мы выделяем это проблему, сосредотачиваясь на Наджди и Хиджази, диалектах, широко говорящихся в Ар scholarship. В нашем исследовании мы стремимся упростить процесс генерирования текста в этих диалектах, улучшив контроль и точность текстов, что повысит качество интерактивных систем и снизит метаданные-эхо. #### Метод Мы использовали модель ALLaM-7B-Instruct-preview — первую фундаментальную модель, разработанную в Саудовской Аравии. Модель была прикручена к новой LoRA (Low-Rank Adaptation) для генерирования текста на Наджди и Хиджази. Мы изучили два подхода: (i) **Dialect-Token Training**, в котором для каждого запроса добавляется префиксный тег диалекта; и (ii) **No-Token Training**, в котором такой тег опускается. Мы тренировали модель на приватно скомпилированном Corpus Saudi Dialect Instruction (5,466 instruction-response pairs; 50/50 split) и оценивали её на запасном наборе данных средствами external dialect classifier (для контроля языка) и fidelity metrics (chrF++ и BERTScore). Наша модель была сравнена с другими инструктивными моделями, такими как Falcon-7B-Instruct, Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, AceGPT-v2-8B-Chat и JAIS-13B-Chat. #### Результаты Модель Dialect-Token показала значительные улучшения в контроле диалекта, увеличив процент генерируемых надждийских и хиджазийских текстов с 47.97% до 84.21% и снизив процент MSA-leakage с 32.63% до 6.21%. Это привело к повышению точности текстов с chrF++ +3.53 и BERTScore +0.059. No-Token Training также демонстрировал повышение, но в меньшей степени. Мы также сравнили нашу модель с другими инструктивными моделями, демонстрируя её превосходство в контроле диалекта и точности. Однако подобные модели часто сталкиваются с проблемой метаданных-эхо, которая отсутствует в нашей реализации. #### Значимость Наша модель демонстрирует повышенную контрольность и точность в генерировании текстов на Наджди и Хиджази. Это делает её применимой в системах разговорных помощников, генерации текстов для социальных сетей и других приложениях, где точность и контроль языка критически важны. Мы не выпускаем данные или модели в открытом доступе, но предоставляем код для обучения, оценки и интерпретации, чтобы поддержать проверяемо

Abstract

Large language models (LLMs) for Arabic are still dominated by Modern Standard Arabic (MSA), with limited support for Saudi dialects such as Najdi and Hijazi. This underrepresentation hinders their ability to capture authentic dialectal variation. Using a privately curated Saudi Dialect Instruction dataset (Hijazi and Najdi; 5,466 synthetic instruction-response pairs; 50/50 split), we LoRA-tune ALLaM-7B-Instruct-preview, the first foundation model developed in Saudi Arabia, for Saudi dialect generation. We investigate two variants: (i) Dialect-Token training, which prepends an explicit dialect tag to the instruction, and (ii) No-Token training, which omits the tag at formatting time. Evaluation on a held-out test set combines an external dialect classifier with text fidelity metrics (chrF++ and BERTScore) and diversity measures. The Dialect-Token model achieves the best control, raising the Saudi rate from 47.97% to 84.21% and reducing MSA leakage from 32.63% to 6.21%; fidelity also improves (chrF++ +3.53, BERTScore +0.059). Both LoRA variants outperform strong generic instruction models (Falcon-7B-Instruct, Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, AceGPT-v2-8B-Chat, JAIS-13B-Chat) in dialect control and fidelity, while avoiding metadata-tag echoing that these baselines frequently exhibit. We do not release the dataset or any model weights/adapters; instead, we release training/evaluation/inference code and a detailed datasheet (schema and aggregate statistics) to support independent verification.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация