Evaluating Large Language Models for Cross-Lingual Retrieval
2509.14749v1
cs.CL, cs.IR
2025-09-20
Авторы:
Longfei Zuo, Pingjun Hong, Oliver Kraus, Barbara Plank, Robert Litschko
Резюме на русском
## Контекст
Информационное поисковое восстановление (IR), особенно в сценариях, когда целевые документы и запросы находятся на разных языках (Cross-Lingual IR, CLIR), является ключевым вопросом в поисковых системах. Обычно, эта задача решается с помощью двух этапов: первый этап использует методы языкового перевода и лексического поиска, а второй этап — модели на основе Large Language Models (LLMs) для повторного оценивания результатов. Однако текущая практика имеет существенные недостатки: перевод языка является дорогостоящим и чувствительным к ошибкам, имеющим потенциал для передачи ошибок между стадиями. Таким образом, необходимо построить эффективную систему CLIR, которая будет свободна от традиционного подхода.
## Метод
Мы рассматриваем CLIR с использованием LLM-based rerankers, оптимизированных для задач первого и второго этапа. Для первого этапа используется би-энкодер на основе многоязычных моделей (Multilingual Bi-Encoder), который извлекает фичу из запросов и документов в виде векторов. Для второго этапа используется LLM-based reranker, тренированный с использованием инструкций (instruction-tuned LLM). Мы проводим эксперименты на двух типах данных: passage-level и document-level CLIR. Мы сравниваем наш подход с традиционными методами, включая перевод с помощью машинного перевода (MT) и listwise rerankers.
## Результаты
Наши эксперименты показали, что многоязычные би-энкодеры как первое этапное решение дают более высокие результаты по отношению к стандартному подходу с переводом. Также, мы обнаружили, что инструкция-тренированные LLM-based rerankers показывают очень высокий уровень эффективности при сравнении с listwise rerankers. Без перевода, текущие state-of-the-art rerankers не смогут показать сопоставимую эффективность в CLIR.
## Значимость
Наши результаты показывают, что система CLIR может быть эффективно реализована без использования традиционного метода перевода. Многоязычные би-энкодеры дают лучший результат в первой стадии, и инструкция-тренированные LLM-based rerankers демонстрируют сопоставимую эффективность с самыми современными подходами во второй стадии. Это открывает новые возможности для создания более эффективных и простых CLIR-систем.
## Выводы
Мы являемся первыми, кто изучил взаимодействие между рейкерсами и ретейкерсами в двух этапной CLIR с использованием LLMs. Наши результаты показывают, что традиционные подходы к переводу необязательны, и что модели на основе LLMs могут эффективно работать в CLIR. Будущие исследования будут сфокусированы на улучшении многоязычных моделей и их интеграции в более сложные поисковые системы.
Abstract
Multi-stage information retrieval (IR) has become a widely-adopted paradigm
in search. While Large Language Models (LLMs) have been extensively evaluated
as second-stage reranking models for monolingual IR, a systematic large-scale
comparison is still lacking for cross-lingual IR (CLIR). Moreover, while prior
work shows that LLM-based rerankers improve CLIR performance, their evaluation
setup relies on lexical retrieval with machine translation (MT) for the first
stage. This is not only prohibitively expensive but also prone to error
propagation across stages. Our evaluation on passage-level and document-level
CLIR reveals that further gains can be achieved with multilingual bi-encoders
as first-stage retrievers and that the benefits of translation diminishes with
stronger reranking models. We further show that pairwise rerankers based on
instruction-tuned LLMs perform competitively with listwise rerankers. To the
best of our knowledge, we are the first to study the interaction between
retrievers and rerankers in two-stage CLIR with LLMs. Our findings reveal that,
without MT, current state-of-the-art rerankers fall severely short when
directly applied in CLIR.
Ссылки и действия
Дополнительные ресурсы: