A comparison of pipelines for the translation of a low resource language based on transformers

2509.12514v1 cs.CL, cs.CE, cs.CY, cs.LG 2025-09-18
Авторы:

Chiara Bonfanti, Michele Colombino, Giulia Coucourde, Faeze Memari, Stefano Pinardi, Rosa Meo

Резюме на русском

#### Контекст Машинный перевод низкоресурсных языков, таких как бамбарский, представляет особые сложности из-за недостатка больших объемов текстовых данных и традиционного переводоманиала. Бамбарский — это язык, широко распространенный в Африке, но ему относится мало ресурсов и словарей. Это вызывает проблему перевода на него автоматически, так как модели, обученные на языках с большим количеством ресурсов, сталкиваются с трудностями при переносе на низкоресурсные языки. Целью данной работы является сравнение различных подходов к обучению моделей, основанных на трансформерах, для перевода с французского на бамбарский. #### Метод Работа представляет сравнение трех разных пайплайнов. **Первый пайплайн** обучает простой трансформер для перевода французских предложений на бамбарский. **Второй пайплайн** заключается в том, чтобы файн-тюнить модели LLaMA (3B-8B), используя декодер-только архитектуры, для перевода с французского на бамбарский. Также в этом пайплайне были использованы различные комбинации гиперпараметров для улучшения метрик BLEU и chrF. **Третий пайплайн** основан на языковой дистилляции и использует двойной нейронный сетевой архитектуру студент-учитель, интегрирующую бамбарский язык в предварительно обученную модель LaBSE. Этот подход использует языковое независимое представление, а затем BERT расширяет модель LaBSE для генерации перевода. Модели из этих пайплайнов были тестированы на двух датасетах: Dokotoro (медицинские тексты) и Bayelemagaba (различные регионы). #### Результаты Первый пайплайн демонстрирует лучшие результаты, особенно на менее стандартных датасетах. Он достиг 10% BLEU и 21% chrF на Bayelemagaba, а на Yiri-датасете — 33.81% BLEU и 41% chrF. Это указывает на то, что простой трансформер способен лучше адаптироваться к низкоресурсным языкам. Второй пайплайн, заключающийся в файн-тюнинге LLaMA-моделей, показывает лучшие результаты на отдельных датасетах, но менее эффективен при объединении нескольких датасетов. Третий пайплайн, использующий дистилляцию, достиг достаточно высоких результатов, но он не имеет важного преимущества перед двумя первыми подходами. #### Значимость Результаты показывают, что первый пайплайн, несмотря на свою простоту, показал себя как наиболее эффективный для низкоресурсных переводов с французского на бамбарский. Это может быть объяснено тем, что простой трансформер лучше адаптируется к низкоресурсным языкам, не привлекая сложности более сложных архи

Abstract

This work compares three pipelines for training transformer-based neural networks to produce machine translators for Bambara, a Mand\`e language spoken in Africa by about 14,188,850 people. The first pipeline trains a simple transformer to translate sentences from French into Bambara. The second fine-tunes LLaMA3 (3B-8B) instructor models using decoder-only architectures for French-to-Bambara translation. Models from the first two pipelines were trained with different hyperparameter combinations to improve BLEU and chrF scores, evaluated on both test sentences and official Bambara benchmarks. The third pipeline uses language distillation with a student-teacher dual neural network to integrate Bambara into a pre-trained LaBSE model, which provides language-agnostic embeddings. A BERT extension is then applied to LaBSE to generate translations. All pipelines were tested on Dokotoro (medical) and Bayelemagaba (mixed domains). Results show that the first pipeline, although simpler, achieves the best translation accuracy (10% BLEU, 21% chrF on Bayelemagaba), consistent with low-resource translation results. On the Yiri dataset, created for this work, it achieves 33.81% BLEU and 41% chrF. Instructor-based models perform better on single datasets than on aggregated collections, suggesting they capture dataset-specific patterns more effectively.

Ссылки и действия