Evaluating Large Language Models for Cross-Lingual Retrieval

2509.14749v1 cs.CL, cs.IR 2025-09-20

Авторы:

Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko

Резюме на русском

## Контекст Информационное поисковое восстановление (IR), особенно в сценариях, когда целевые документы и запросы находятся на разных языках (Cross-Lingual IR, CLIR), является ключевым вопросом в поисковых системах. Обычно, эта задача решается с помощью двух этапов: первый этап использует методы языкового перевода и лексического поиска, а второй этап — модели на основе Large Language Models (LLMs) для повторного оценивания результатов. Однако текущая практика имеет существенные недостатки: перевод языка является дорогостоящим и чувствительным к ошибкам, имеющим потенциал для передачи ошибок между стадиями. Таким образом, необходимо построить эффективную систему CLIR, которая будет свободна от традиционного подхода. ## Метод Мы рассматриваем CLIR с использованием LLM-based rerankers, оптимизированных для задач первого и второго этапа. Для первого этапа используется би-энкодер на основе многоязычных моделей (Multilingual Bi-Encoder), который извлекает фичу из запросов и документов в виде векторов. Для второго этапа используется LLM-based reranker, тренированный с использованием инструкций (instruction-tuned LLM). Мы проводим эксперименты на двух типах данных: passage-level и document-level CLIR. Мы сравниваем наш подход с традиционными методами, включая перевод с помощью машинного перевода (MT) и listwise rerankers. ## Результаты Наши эксперименты показали, что многоязычные би-энкодеры как первое этапное решение дают более высокие результаты по отношению к стандартному подходу с переводом. Также, мы обнаружили, что инструкция-тренированные LLM-based rerankers показывают очень высокий уровень эффективности при сравнении с listwise rerankers. Без перевода, текущие state-of-the-art rerankers не смогут показать сопоставимую эффективность в CLIR. ## Значимость Наши результаты показывают, что система CLIR может быть эффективно реализована без использования традиционного метода перевода. Многоязычные би-энкодеры дают лучший результат в первой стадии, и инструкция-тренированные LLM-based rerankers демонстрируют сопоставимую эффективность с самыми современными подходами во второй стадии. Это открывает новые возможности для создания более эффективных и простых CLIR-систем. ## Выводы Мы являемся первыми, кто изучил взаимодействие между рейкерсами и ретейкерсами в двух этапной CLIR с использованием LLMs. Наши результаты показывают, что традиционные подходы к переводу необязательны, и что модели на основе LLMs могут эффективно работать в CLIR. Будущие исследования будут сфокусированы на улучшении многоязычных моделей и их интеграции в более сложные поисковые системы.

Abstract

Multi-stage information retrieval (IR) has become a widely-adopted paradigm in search. While Large Language Models (LLMs) have been extensively evaluated as second-stage reranking models for monolingual IR, a systematic large-scale comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior work shows that LLM-based rerankers improve CLIR performance, their evaluation setup relies on lexical retrieval with machine translation (MT) for the first stage. This is not only prohibitively expensive but also prone to error propagation across stages. Our evaluation on passage-level and document-level CLIR reveals that further gains can be achieved with multilingual bi-encoders as first-stage retrievers and that the benefits of translation diminishes with stronger reranking models. We further show that pairwise rerankers based on instruction-tuned LLMs perform competitively with listwise rerankers. To the best of our knowledge, we are the first to study the interaction between retrievers and rerankers in two-stage CLIR with LLMs. Our findings reveal that, without MT, current state-of-the-art rerankers fall severely short when directly applied in CLIR.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Evaluating Large Language Models for Cross-Lingual Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация