Debiasing Multilingual LLMs in Cross-lingual Latent Space
2508.17948v1
cs.CL, cs.AI, cs.LG
2025-08-27
Авторы:
Qiwei Peng, Guimin Hu, Yekun Chai, Anders Søgaard
Резюме на русском
## Контекст
Скрытые предрассудки в больших моделях естественного языка (LLMs) являются важной проблемой, особенно в мультилингвальных задачах. Несмотря на прогресс в методах debiasing, модели часто не могут эффективно перевести эти техники на другие языки. Эта проблема становится критичной при кросс-лингвальных задачах, где необходимо уменьшить уровень скрытого англоцентризма и улучшить контекстуальную гранулярность. Несмотря на работы по оценке кросс-лингвальной трансфертивности таких методов, есть недостаток моделей, которые могли бы адаптироваться к различным языкам. В настоящей работе предлагается первый подход, в котором debiasing выполняется в "скрытом" пространстве, а не напрямую на выходных данных модели.
## Метод
Для создания кросс-лингвального пространства использован автоэнкодер, основанный на параллельных данных (TED Talk скриптов). Обучение автоэнкодера направлено на создание низкоразмерного пространства, которое сохраняет гранулярность языка и позволяет эффективно передавать скрытые предрассудки между языками. Для дебиасинга использованы две техники: SentDebias и HardDebias. Данные для экспериментов были извлечены из входных предложений моделей и представлены в трех языках (французский, немецкий, голландский), с целью оценки эффективности кросс-лингвального дебиасинга.
## Результаты
Эксперименты показали, что автоэнкодер эффективно строит кросс-лингвальное пространство, сохраняя языковые характеристики и уменьшая корреляцию скрытых предрассудков. Техники debiasing, примененные в этом пространстве, показали значительный повышение эффективности по сравнению с дебиасингом напрямую в выходных данных модели. В частности, SentDebias показал улучшение в 10% для всех языков в сравнении с безучетом входа в пространство. HardDebias также показал улучшение в 7%, особенно для языков с меньшим представительством в обучающих данных.
## Значимость
Данный подход может быть применен в различных мультилингвальных задачах, включая перевод, суммирование текста и распознавание субъективных выражений. Он предоставляет преимущества в улучшении скрытого дебиасинга, а также работы с языками с недостатком данных. Будущие исследования могут сосредоточиться на улучшении алгоритмов автоэнкодера и расширении кросс-лингвального пространства для широкого спектма языков.
## Выводы
Результаты экспериментов показали, что дебиасинг в кросс-лингвальном пространстве значительно улучшает эффективность и кросс-лингвальную трансфертивность LLMs. Этот подход может стать базой для дальнейшего раз
Abstract
Debiasing techniques such as SentDebias aim to reduce bias in large language
models (LLMs). Previous studies have evaluated their cross-lingual
transferability by directly applying these methods to LLM representations,
revealing their limited effectiveness across languages. In this work, we
therefore propose to perform debiasing in a joint latent space rather than
directly on LLM representations. We construct a well-aligned cross-lingual
latent space using an autoencoder trained on parallel TED talk scripts. Our
experiments with Aya-expanse and two debiasing techniques across four languages
(English, French, German, Dutch) demonstrate that a) autoencoders effectively
construct a well-aligned cross-lingual latent space, and b) applying debiasing
techniques in the learned cross-lingual latent space significantly improves
both the overall debiasing performance and cross-lingual transferability.
Ссылки и действия
Дополнительные ресурсы: