When Does Language Transfer Help? Sequential Fine-Tuning for Cross-Lingual Euphemism Detection

2508.11831v1 cs.CL, cs.AI 2025-08-19
Авторы:

Julia Sammartino, Libby Barak, Jing Peng, Anna Feldman

Резюме на русском

#### Контекст Словоепемизмы (euphemisms) — слова или выражения, которые применяются для оборотного выражения чувствительных или неприятных понятий. Они широко используются в различных культурах, но их значение и применение часто зависят от контекста и культурных особенностей. Это делает их определение задачей сложную, особенно в многоязычных и малоресурсных языках, где модели языка часто сталкиваются с нехваткой данных и культурных контекстов. Целью данного исследования является изучение возможностей передачи знаний между языками (cross-lingual transfer) для улучшения понимания словоепемизмов в таких ситуациях. #### Метод Для решения этой задачи использовалась последовательная многоязычная многозадачная обучения (sequential fine-tuning). Эта методика заключается в том, что модель обучается по одному языку (L1), а затем применяется к другому языку (L2), чтобы улучшить его понимание. Использовались модели XLM-R и mBERT, которые являются предварительно обученными многоязычными моделями, для анализа словоепемизмов в 5 языках: английском, испанском, китайском, турецком и йорубском. Эксперименты проводились с различными парами языков, чтобы изучить, как различные типологические особенности и покрытие предварительного обучения влияют на уровень передачи знаний. #### Результаты Эксперименты показали, что последовательная многоязычная обучение позволяет значительно улучшить понимание словоепемизмов в языках с недостаточным количеством данных, таких как йорубский и турецкий. Модель XLM-R показала более высокий показатель повышения производительности, но она оказалась более чувствительной к проблемам, таким как катастрофическое забывание (catastrophic forgetting) и нехватка данных в моменте предварительного обучения. Модель mBERT, в свою очередь, демонстрировала более стабильные, но менее впечатляющие результаты. Эти результаты подтверждают, что последовательная многоязычная обучающая методика является эффективным способом улучшения понимания словоепемизмов в многоязычных моделях, особенно при работе с малоресурсными языками. #### Значимость Результаты имеют значимый потенциал для применения в области многоязычного моделирования естественного языка. Они демонстрируют, как модели могут избегать проблем, связанных с недостаточным количеством данных в определенных языках, благодаря передаче знаний из более ресурсообеспеченных языков. Это может быть применено в переводчиках, системах обнаружения тональности и других приложениях, где кросс-языковое понимание ключевое. Будущие исследования могут сфокусироваться на улучшении методов предотвращения катастрофи

Abstract

Euphemisms are culturally variable and often ambiguous, posing challenges for language models, especially in low-resource settings. This paper investigates how cross-lingual transfer via sequential fine-tuning affects euphemism detection across five languages: English, Spanish, Chinese, Turkish, and Yoruba. We compare sequential fine-tuning with monolingual and simultaneous fine-tuning using XLM-R and mBERT, analyzing how performance is shaped by language pairings, typological features, and pretraining coverage. Results show that sequential fine-tuning with a high-resource L1 improves L2 performance, especially for low-resource languages like Yoruba and Turkish. XLM-R achieves larger gains but is more sensitive to pretraining gaps and catastrophic forgetting, while mBERT yields more stable, though lower, results. These findings highlight sequential fine-tuning as a simple yet effective strategy for improving euphemism detection in multilingual models, particularly when low-resource languages are involved.

Ссылки и действия