A comparison of pipelines for the translation of a low resource language based on transformers
2509.12514v1
cs.CL, cs.CE, cs.CY, cs.LG
2025-09-18
Авторы:
Chiara Bonfanti, Michele Colombino, Giulia Coucourde, Faeze Memari, Stefano Pinardi, Rosa Meo
Резюме на русском
#### Контекст
Машинный перевод низкоресурсных языков, таких как бамбарский, представляет особые сложности из-за недостатка больших объемов текстовых данных и традиционного переводоманиала. Бамбарский — это язык, широко распространенный в Африке, но ему относится мало ресурсов и словарей. Это вызывает проблему перевода на него автоматически, так как модели, обученные на языках с большим количеством ресурсов, сталкиваются с трудностями при переносе на низкоресурсные языки. Целью данной работы является сравнение различных подходов к обучению моделей, основанных на трансформерах, для перевода с французского на бамбарский.
#### Метод
Работа представляет сравнение трех разных пайплайнов. **Первый пайплайн** обучает простой трансформер для перевода французских предложений на бамбарский. **Второй пайплайн** заключается в том, чтобы файн-тюнить модели LLaMA (3B-8B), используя декодер-только архитектуры, для перевода с французского на бамбарский. Также в этом пайплайне были использованы различные комбинации гиперпараметров для улучшения метрик BLEU и chrF. **Третий пайплайн** основан на языковой дистилляции и использует двойной нейронный сетевой архитектуру студент-учитель, интегрирующую бамбарский язык в предварительно обученную модель LaBSE. Этот подход использует языковое независимое представление, а затем BERT расширяет модель LaBSE для генерации перевода. Модели из этих пайплайнов были тестированы на двух датасетах: Dokotoro (медицинские тексты) и Bayelemagaba (различные регионы).
#### Результаты
Первый пайплайн демонстрирует лучшие результаты, особенно на менее стандартных датасетах. Он достиг 10% BLEU и 21% chrF на Bayelemagaba, а на Yiri-датасете — 33.81% BLEU и 41% chrF. Это указывает на то, что простой трансформер способен лучше адаптироваться к низкоресурсным языкам. Второй пайплайн, заключающийся в файн-тюнинге LLaMA-моделей, показывает лучшие результаты на отдельных датасетах, но менее эффективен при объединении нескольких датасетов. Третий пайплайн, использующий дистилляцию, достиг достаточно высоких результатов, но он не имеет важного преимущества перед двумя первыми подходами.
#### Значимость
Результаты показывают, что первый пайплайн, несмотря на свою простоту, показал себя как наиболее эффективный для низкоресурсных переводов с французского на бамбарский. Это может быть объяснено тем, что простой трансформер лучше адаптируется к низкоресурсным языкам, не привлекая сложности более сложных архи
Abstract
This work compares three pipelines for training transformer-based neural
networks to produce machine translators for Bambara, a Mand\`e language spoken
in Africa by about 14,188,850 people. The first pipeline trains a simple
transformer to translate sentences from French into Bambara. The second
fine-tunes LLaMA3 (3B-8B) instructor models using decoder-only architectures
for French-to-Bambara translation. Models from the first two pipelines were
trained with different hyperparameter combinations to improve BLEU and chrF
scores, evaluated on both test sentences and official Bambara benchmarks. The
third pipeline uses language distillation with a student-teacher dual neural
network to integrate Bambara into a pre-trained LaBSE model, which provides
language-agnostic embeddings. A BERT extension is then applied to LaBSE to
generate translations. All pipelines were tested on Dokotoro (medical) and
Bayelemagaba (mixed domains). Results show that the first pipeline, although
simpler, achieves the best translation accuracy (10% BLEU, 21% chrF on
Bayelemagaba), consistent with low-resource translation results. On the Yiri
dataset, created for this work, it achieves 33.81% BLEU and 41% chrF.
Instructor-based models perform better on single datasets than on aggregated
collections, suggesting they capture dataset-specific patterns more
effectively.