Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods

2509.06195v1 cs.IR, cs.AI, cs.CL 2025-09-10

Авторы:

Jinrui Yang, Fan Jiang, Timothy Baldwin

Резюме на русском

#### Контекст В многоязычных системах информационного поиска (MLIR) существует важное равенство — топ-результаты поиска для запросов, имеющих одинаковый смысл, но на разных языках, должны быть одинаковыми. Несправедливость в рейтинге может привести к недоступности информации для пользователей некоторых языков. Этот мотив наполняет исследование, так как необходимо гарантировать, что системы MLIR работают справедливо и эффективно для всех лингвистических групп. Недостаточное равенство может быть вызвано тем, что тренировочные данные или алгоритмы могут придавать большую важность определенным языкам. #### Метод Для изучения проблемы с предположением о равенстве в семантике запросов были использованы два типа подходов: традиционные методы и модель DPR с нейронным ранжированием. DPR была основана на двух моделях представления языка — mBERT и XLM-R. Эти модели были обучены на 100 языках. Для измерения равенства использовался метрический подход, который сравнивал рейтинги важных документов в зависимости от используемого языка. Была представлена новая функция потерь LaKDA, которая стремилась уменьшить неравенство в многоязычных системах поиска. #### Результаты Проведенные эксперименты на нескольких наборах данных, включая TREC-COVID и CC-100, показали повышенную неравенственность в топ-результатах поиска в зависимости от языка. Результаты показали, что модель XLM-R превосходит mBERT в более справедливом ранжировании для некоторых языков. Однако все модели демонстрировали незначительные неравенства в своих рейтингах. Использование LaKDA позволило улучшить равенство в результатах в сравнении с базовыми моделями. #### Значимость Найденные неравенства в MLIR могут привести к недоступности ресурсов для некоторых групп языков, что является критическим в области глобальной связи и образования. Это исследование показало, что LaKDA может сделать системы MLIR более справедливыми, уменьшив степень неравенства в рейтингах. Это может привести к более честному и эффективному доступу к информации для всех языков. Будущие исследования могут сосредоточиться на расширении обучающих наборов данных и изучении других подходов к улучшению равенства в MLIR. #### Выводы Исследование подтвердило существование языковых неравенств в MLIR, исследовав способы их измерения и устранения. Результаты показали, что LaKDA является эффективным методом для улучшения равенства в MLIR. Дальнейшие исследования могут расширить понимание неравенств и развить новые стратегии для повышения справедливости в многоязычных системах поиска.

Abstract

Language fairness in multilingual information retrieval (MLIR) systems is crucial for ensuring equitable access to information across diverse languages. This paper sheds light on the issue, based on the assumption that queries in different languages, but with identical semantics, should yield equivalent ranking lists when retrieving on the same multilingual documents. We evaluate the degree of fairness using both traditional retrieval methods, and a DPR neural ranker based on mBERT and XLM-R. Additionally, we introduce `LaKDA', a novel loss designed to mitigate language biases in neural MLIR approaches. Our analysis exposes intrinsic language biases in current MLIR technologies, with notable disparities across the retrieval methods, and the effectiveness of LaKDA in enhancing language fairness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Language Bias in Information Retrieval: The Nature of the Beast and Mitigation Methods

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Langua...

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information ...

PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Rea...

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce ...

Pctx: Tokenizing Personalized Context for Generative Recommendation

Навигация