ALOPE: Adaptive Layer Optimization for Translation Quality Estimation using Large Language Models
2508.07484v1
cs.CL, cs.AI
2025-08-13
Авторы:
Archchana Sindhujan, Shenbin Qian, Chan Chi Chun Matthew, Constantin Orasan, Diptesh Kanojia
Резюме на русском
#################################
## Контекст
#################################
Область исследования — Quality Estimation (QE) для машинного перевода (MT), которая оценивает качество перевода без использования дополнительных трансляционных меток. Это задача кросс-языковая и относительно сложная для существующих моделей, особенно в случае низкоресурсных языков. Особенности QE заключаются в том, что необходимо понять, насколько хорошо генерируется перевод, не имея полных справочных трансляций. Повышенные трудности возникают при использовании моделей, которые не были предварительно обучены для регрессионных задач, а для подготовки были использованы модели с целью генерировать текст (каузиальная модельность). Большие языковые модели (LLMs), несмотря на выдающееся качество во многих задачах натурального обработки языка, в случае QE сталкиваются с проблемами, такими как несоответствие между предварительной подготовкой и регрессионными задачами. Таким образом, целью исследования является разработка адаптивной структуры, которая бы способствовала повышению качества шаблонов перевода, оптимизировав слои трансформеров на основе регрессионных задач.
#################################
## Метод
#################################
Разработанная модель, ALOPE (Adaptive Layer Optimization for Translation Quality Estimation), включает в себя несколько инновационных подходов:
1. **Low-Rank Adapters (LoRA)** — это универсальные адаптации, размещенные в каждом слое трансформеров, которые позволяют уменьшить количество параметров, не ухудшая качество регрессионного предсказания.
2. **Dynamic Weighing** — стратегия, которая позволяет адаптировать веса представлений из разных слоев, оптимизируя их в соответствии с задачей QE.
3. **Multi-Head Regression** — это стратегия, в которой каждая регрессионная голова предсказывает качество перевода, а полученные результаты агрегируются в единый результат.
4. **Layer-Wise Adaptation** — механизм, который позволяет использовать только выбранные слои трансформеров для QE, адаптируя их к регрессионным задачам.
Таким образом, ALOPE позволяет оптимизировать слои трансформеров для кросс-языковой регрессии, увеличивая точность и скорость обучения.
#################################
## Результаты
#################################
Эксперименты проводились на различных датасетах, включающих низкоресурсные языки (например, африканский, вьетнамский) и языки с большим количеством данных (например, английский, немецкий). Для тренировки использовались модели LLMs, в том числе готовые модели Transformer с разными предобученными слоями. В результате:
- Модель ALOPE показала значительное повышение точности QE по сравнению с существующими LLM-based QE моделями.
- Особенно выдающиеся результаты были получены при использовании низкоресурсных языков, где дру
Abstract
Large Language Models (LLMs) have shown remarkable performance across a wide
range of natural language processing tasks. Quality Estimation (QE) for Machine
Translation (MT), which assesses the quality of a source-target pair without
relying on reference translations, remains a challenging cross-lingual task for
LLMs. The challenges stem from the inherent limitations of existing LLM-based
QE systems, which are pre-trained for causal language modelling rather than
regression-specific tasks, further elevated by the presence of low-resource
languages given pre-training data distribution. This paper introduces ALOPE, an
adaptive layer-optimization framework designed to enhance LLM-based QE by
restructuring Transformer representations through layer-wise adaptation for
improved regression-based prediction. Our framework integrates low-rank
adapters (LoRA) with regression task heads, leveraging selected pre-trained
Transformer layers for improved cross-lingual alignment. In addition to the
layer-specific adaptation, ALOPE introduces two strategies-dynamic weighting,
which adaptively combines representations from multiple layers, and multi-head
regression, which aggregates regression losses from multiple heads for QE. Our
framework shows improvements over various existing LLM-based QE approaches.
Empirical evidence suggests that intermediate Transformer layers in LLMs
provide contextual representations that are more aligned with the cross-lingual
nature of the QE task. We make resultant models and framework code publicly
available for further research, also allowing existing LLM-based MT frameworks
to be scaled with QE capabilities.
Ссылки и действия
Дополнительные ресурсы: