Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios
2509.15380v1
cs.IR, cs.AI, cs.CL
2025-09-22
Авторы:
Vera Pavlova, Mohammed Makhlouf
Резюме на русском
#### Контекст
Информационное поисковое обращение (Information Retrieval, IR) широко применяется в различных сферах жизнедеятельности, включая литературные исследования, юридическое обслуживание, медицинское обслуживание и многие другие. Однако в области исследований, посвященных многоязычному IR, существует необходимость в более глубоком исследовании, как модели могут применяться в реальном мире. Это главная мотивация для данного исследования. Особенно актуальной является задача разработки модели, которая могла бы быть полезна в уникальных источниках знаний, таких как Коран. Данная работа посвящена поиску и разработке методологии, которая была бы эффективна для многоязычного поиска в контексте Ислама.
#### Метод
В ходе работы была разработана и протестирована 11 моделей извлечения информации, используя четыре различные методики обучения: монолингвальная, кросс-лингвальная, train-all (обучение на транслированных данных) и смешанная (комбинация монолингвального и кросс-лингвального обучения). На каждой модели был проведен эксперимент по извлечению ответов на вопросы в различных языковых контекстах. Использовались специально подготовленные данные в формате SQuAD, где задания были переведены на несколько языков, чтобы охватить широкий круг пользователей. Архитектура модели основывалась на предварительно обученных моделях для многоязычного текста, адаптированных для поиска в контексте Корана.
#### Результаты
Проведенные эксперименты показали, что модель, обученная смешанным методом, обеспечивает наиболее эффективные результаты в различных сценариях извлечения информации. Эта модель не только показала высокую точность в извлечении ответов, но и продемонстрировала высокую универсальность для различных языков. Особенно важно, что эта модель может быть развернута в реальных условиях, показывая большую эффективность в сравнении с другими моделями. Был проведен подробный анализ, показывающий, как различные методики обучения влияют на эмбеддинг-пространство и, как следствие, на эффективность поиска.
#### Значимость
Разработанная модель показала себя как эффективная и универсальная для многоязычного извлечения информации в контексте Ислама. Она может быть применена в различных сферах, включая образовательные ресурсы, учебные курсы, и медицинскую информацию. Особенно ценным является ее мобильность и затраты на развертывание, так как модель является легковесной и может быть развернута в разных средах. Это позволяет снизить затраты и увеличить доступность решения для пользователей.
#### Выводы
Разработанная модель демонстрирует высокую эффектив
Abstract
Despite recent advancements in Multilingual Information Retrieval (MLIR), a
significant gap remains between research and practical deployment. Many studies
assess MLIR performance in isolated settings, limiting their applicability to
real-world scenarios. In this work, we leverage the unique characteristics of
the Quranic multilingual corpus to examine the optimal strategies to develop an
ad-hoc IR system for the Islamic domain that is designed to satisfy users'
information needs in multiple languages. We prepared eleven retrieval models
employing four training approaches: monolingual, cross-lingual,
translate-train-all, and a novel mixed method combining cross-lingual and
monolingual techniques. Evaluation on an in-domain dataset demonstrates that
the mixed approach achieves promising results across diverse retrieval
scenarios. Furthermore, we provide a detailed analysis of how different
training configurations affect the embedding space and their implications for
multilingual retrieval effectiveness. Finally, we discuss deployment
considerations, emphasizing the cost-efficiency of deploying a single
versatile, lightweight model for real-world MLIR applications.
Ссылки и действия
Дополнительные ресурсы: