📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A comparison of pipelines for the translation of a low resource language based on transformers

2025-09-18

Авторы:

Chiara Bonfanti, Michele Colombino, Giulia Coucourde, Faeze Memari, Stefano Pinardi, Rosa Meo

#### Контекст Машинный перевод низкоресурсных языков, таких как бамбарский, представляет особые сложности из-за недостатка больших объемов текстовых данных и традиционного переводоманиала. Бамбарский — это язык, широко распространенный в Африке, но ему относится мало ресурсов и словарей. Это вызывает проблему перевода на него автоматически, так как модели, обученные на языках с большим количеством ресурсов, сталкиваются с трудностями при переносе на низкоресурсные языки. Целью данной работы является сравнение различных подходов к обучению моделей, основанных на трансформерах, для перевода с французского на бамбарский. #### Метод Работа представляет сравнение трех разных пайплайнов. **Первый пайплайн** обучает простой трансформер для перевода французских предложений на бамбарский. **Второй пайплайн** заключается в том, чтобы файн-тюнить модели LLaMA (3B-8B), используя декодер-только архитектуры, для перевода с французского на бамбарский. Также в этом пайплайне были использованы различные комбинации гиперпараметров для улучшения метрик BLEU и chrF. **Третий пайплайн** основан на языковой дистилляции и использует двойной нейронный сетевой архитектуру студент-учитель, интегрирующую бамбарский язык в предварительно обученную модель LaBSE. Этот подход использует языковое независимое представление, а затем BERT расширяет модель LaBSE для генерации перевода. Модели из этих пайплайнов были тестированы на двух датасетах: Dokotoro (медицинские тексты) и Bayelemagaba (различные регионы). #### Результаты Первый пайплайн демонстрирует лучшие результаты, особенно на менее стандартных датасетах. Он достиг 10% BLEU и 21% chrF на Bayelemagaba, а на Yiri-датасете — 33.81% BLEU и 41% chrF. Это указывает на то, что простой трансформер способен лучше адаптироваться к низкоресурсным языкам. Второй пайплайн, заключающийся в файн-тюнинге LLaMA-моделей, показывает лучшие результаты на отдельных датасетах, но менее эффективен при объединении нескольких датасетов. Третий пайплайн, использующий дистилляцию, достиг достаточно высоких результатов, но он не имеет важного преимущества перед двумя первыми подходами. #### Значимость Результаты показывают, что первый пайплайн, несмотря на свою простоту, показал себя как наиболее эффективный для низкоресурсных переводов с французского на бамбарский. Это может быть объяснено тем, что простой трансформер лучше адаптируется к низкоресурсным языкам, не привлекая сложности более сложных архи

Annotation:

This work compares three pipelines for training transformer-based neural networks to produce machine translators for Bambara, a Mand\`e language spoken in Africa by about 14,188,850 people. The first pipeline trains a simple transformer to translate sentences from French into Bambara. The second fine-tunes LLaMA3 (3B-8B) instructor models using decoder-only architectures for French-to-Bambara translation. Models from the first two pipelines were trained with different hyperparameter combinations...

ID: 2509.12514v1 cs.CL, cs.CE, cs.CY, cs.LG

arXiv PDF