Small Open Models Achieve Near Parity with Large Models in Low Resource Literary Translation at a Fraction of the Cost
2509.07829v1
cs.CL, cs.AI, cs.LG
2025-09-11
Авторы:
Mihai Nadas, Laura Diosan, Andreea Tomescu, Andrei Piscoran
Резюме на русском
#### Контекст
В последние годы литературная переводка приобрела внимания как сложная и отдельная задача в области машинного перевода. Однако, существуют значительные проблемы с доступностью и качеством малых открытых моделей при переводе литературы. Мы привлекли внимание к этой проблеме, представив TINYFABULIST TRANSLATION FRAMEWORK (TF2) — новую методологию для создания датасетов, файн-тюнинга и оценки перевода литературы. Центральной частью TF2 является модель TF2-12B — компактный, тюнингованный языковой модель, а также два больших синтетических параллельных датасета (DS-TF2-EN-RO-3M и DS-TF2-EN-RO-15K). Наша работа стремится улучшить доступность и качество перевода литературы в низкоресурсных языках, таких как румынский.
#### Метод
TF2 предлагает универсальную структуру для создания датасетов, тюнинга моделей и оценки перевода. Мы сформировали DS-TF2-EN-RO-3M, составив огромный набор синтетических параллельных фабул для румынского языка. Датасет DS-TF2-EN-RO-15K создан с использованием высокопроизводительной модели LLMs для генерации 15k высококачественных румынских стихотворных переводов. Модель TF2-12B началась с 12 миллиардов параметров и прошла два этапа файн-тюнинга: (i) инструкционный тюнинг для приобщения к жанру, и (ii) адаптерная сжатие для эффективного развертывания. Мы оценивали трансформации с помощью BLEU и пяти-мерного рейтинга, включающего аккуратность, гармонию, стиль и культурные аспекты.
#### Результаты
Наши результаты показывают, что TF2-12B достигает качества, которое примерно равно качеству топовых моделей, но имеет открытый код и гораздо более низкий затратный показатель. Мы получили высокий уровень подробности, стиля и культурной адаптации, что исключительно важен для литературных переводов. Это открытое решение позволяет улучшить доступ к литературе для тех, кто работает в низкоресурсных языках.
#### Значимость
TF2 может применяться в различных областях, таких как литературная трансляция, межязыковое рассказывание и раскрытие открытых моделей. Улучшение качества перевода в низкоресурсных языках может способствовать развитию культурного наследия и литературного творчества. Более того, TF2 устанавливает новый стандарт для эффективного и повторяемого исследования в области литературного перевода с помощью открытых моделей.
#### Выводы
Мы доказали, что TF2 достигает эффективности и качества, которые примерно эквивалентны топовым моделям, но с меньшими затратами. Это открытый инструмент, мотивирующий будущие исследования
Abstract
Literary translation has recently gained attention as a distinct and complex
task in machine translation research. However, the translation by small open
models remains an open problem. We contribute to this ongoing research by
introducing TINYFABULIST TRANSLATION FRAMEWORK (TF2), a unified framework for
dataset creation, fine tuning, and evaluation in English-Romanian literary
translations, centred on the creation and open release of both a compact, fine
tuned language model (TF2-12B) and large scale synthetic parallel datasets
(DS-TF2-EN-RO-3M and DS-TF2-EN-RO-15K). Building on DS-TF1-EN-3M (TF1), the
largest collection of synthetic English fables to date, we address the need for
rich, high quality literary datasets in low resource languages such as
Romanian. Our pipeline first generates 15k high quality Romanian references
from the TF1 pool using a high performing LLM. We then apply a two stage fine
tuning process to a 12B parameter open weight model: (i) instruction tuning to
capture genre specific narrative style, and (ii) adapter compression for
efficient deployment. Evaluation combines corpus level BLEU and a five
dimension LLM based rubric (accuracy, fluency, coherence, style, cultural
adaptation) to provide a nuanced assessment of translation quality. Results
show that our fine tuned model achieves fluency and adequacy competitive with
top performing large proprietary models, while being open, accessible, and
significantly more cost effective. Alongside the fine tuned model and both
datasets, we publicly release all scripts and evaluation prompts. TF2 thus
provides an end-to-end, reproducible pipeline for research on cost efficient
translation, cross lingual narrative generation, and the broad adoption of open
models for culturally significant literary content in low resource settings.
Ссылки и действия
Дополнительные ресурсы: