Debiasing Multilingual LLMs in Cross-lingual Latent Space

2508.17948v1 cs.CL, cs.AI, cs.LG 2025-08-27
Авторы:

Qiwei Peng, Guimin Hu, Yekun Chai, Anders Søgaard

Резюме на русском

## Контекст Скрытые предрассудки в больших моделях естественного языка (LLMs) являются важной проблемой, особенно в мультилингвальных задачах. Несмотря на прогресс в методах debiasing, модели часто не могут эффективно перевести эти техники на другие языки. Эта проблема становится критичной при кросс-лингвальных задачах, где необходимо уменьшить уровень скрытого англоцентризма и улучшить контекстуальную гранулярность. Несмотря на работы по оценке кросс-лингвальной трансфертивности таких методов, есть недостаток моделей, которые могли бы адаптироваться к различным языкам. В настоящей работе предлагается первый подход, в котором debiasing выполняется в "скрытом" пространстве, а не напрямую на выходных данных модели. ## Метод Для создания кросс-лингвального пространства использован автоэнкодер, основанный на параллельных данных (TED Talk скриптов). Обучение автоэнкодера направлено на создание низкоразмерного пространства, которое сохраняет гранулярность языка и позволяет эффективно передавать скрытые предрассудки между языками. Для дебиасинга использованы две техники: SentDebias и HardDebias. Данные для экспериментов были извлечены из входных предложений моделей и представлены в трех языках (французский, немецкий, голландский), с целью оценки эффективности кросс-лингвального дебиасинга. ## Результаты Эксперименты показали, что автоэнкодер эффективно строит кросс-лингвальное пространство, сохраняя языковые характеристики и уменьшая корреляцию скрытых предрассудков. Техники debiasing, примененные в этом пространстве, показали значительный повышение эффективности по сравнению с дебиасингом напрямую в выходных данных модели. В частности, SentDebias показал улучшение в 10% для всех языков в сравнении с безучетом входа в пространство. HardDebias также показал улучшение в 7%, особенно для языков с меньшим представительством в обучающих данных. ## Значимость Данный подход может быть применен в различных мультилингвальных задачах, включая перевод, суммирование текста и распознавание субъективных выражений. Он предоставляет преимущества в улучшении скрытого дебиасинга, а также работы с языками с недостатком данных. Будущие исследования могут сосредоточиться на улучшении алгоритмов автоэнкодера и расширении кросс-лингвального пространства для широкого спектма языков. ## Выводы Результаты экспериментов показали, что дебиасинг в кросс-лингвальном пространстве значительно улучшает эффективность и кросс-лингвальную трансфертивность LLMs. Этот подход может стать базой для дальнейшего раз

Abstract

Debiasing techniques such as SentDebias aim to reduce bias in large language models (LLMs). Previous studies have evaluated their cross-lingual transferability by directly applying these methods to LLM representations, revealing their limited effectiveness across languages. In this work, we therefore propose to perform debiasing in a joint latent space rather than directly on LLM representations. We construct a well-aligned cross-lingual latent space using an autoencoder trained on parallel TED talk scripts. Our experiments with Aya-expanse and two debiasing techniques across four languages (English, French, German, Dutch) demonstrate that a) autoencoders effectively construct a well-aligned cross-lingual latent space, and b) applying debiasing techniques in the learned cross-lingual latent space significantly improves both the overall debiasing performance and cross-lingual transferability.

Ссылки и действия