Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios

2509.15380v1 cs.IR, cs.AI, cs.CL 2025-09-22

Авторы:

Vera Pavlova, Mohammed Makhlouf

Резюме на русском

#### Контекст Информационное поисковое обращение (Information Retrieval, IR) широко применяется в различных сферах жизнедеятельности, включая литературные исследования, юридическое обслуживание, медицинское обслуживание и многие другие. Однако в области исследований, посвященных многоязычному IR, существует необходимость в более глубоком исследовании, как модели могут применяться в реальном мире. Это главная мотивация для данного исследования. Особенно актуальной является задача разработки модели, которая могла бы быть полезна в уникальных источниках знаний, таких как Коран. Данная работа посвящена поиску и разработке методологии, которая была бы эффективна для многоязычного поиска в контексте Ислама. #### Метод В ходе работы была разработана и протестирована 11 моделей извлечения информации, используя четыре различные методики обучения: монолингвальная, кросс-лингвальная, train-all (обучение на транслированных данных) и смешанная (комбинация монолингвального и кросс-лингвального обучения). На каждой модели был проведен эксперимент по извлечению ответов на вопросы в различных языковых контекстах. Использовались специально подготовленные данные в формате SQuAD, где задания были переведены на несколько языков, чтобы охватить широкий круг пользователей. Архитектура модели основывалась на предварительно обученных моделях для многоязычного текста, адаптированных для поиска в контексте Корана. #### Результаты Проведенные эксперименты показали, что модель, обученная смешанным методом, обеспечивает наиболее эффективные результаты в различных сценариях извлечения информации. Эта модель не только показала высокую точность в извлечении ответов, но и продемонстрировала высокую универсальность для различных языков. Особенно важно, что эта модель может быть развернута в реальных условиях, показывая большую эффективность в сравнении с другими моделями. Был проведен подробный анализ, показывающий, как различные методики обучения влияют на эмбеддинг-пространство и, как следствие, на эффективность поиска. #### Значимость Разработанная модель показала себя как эффективная и универсальная для многоязычного извлечения информации в контексте Ислама. Она может быть применена в различных сферах, включая образовательные ресурсы, учебные курсы, и медицинскую информацию. Особенно ценным является ее мобильность и затраты на развертывание, так как модель является легковесной и может быть развернута в разных средах. Это позволяет снизить затраты и увеличить доступность решения для пользователей. #### Выводы Разработанная модель демонстрирует высокую эффектив

Abstract

Despite recent advancements in Multilingual Information Retrieval (MLIR), a significant gap remains between research and practical deployment. Many studies assess MLIR performance in isolated settings, limiting their applicability to real-world scenarios. In this work, we leverage the unique characteristics of the Quranic multilingual corpus to examine the optimal strategies to develop an ad-hoc IR system for the Islamic domain that is designed to satisfy users' information needs in multiple languages. We prepared eleven retrieval models employing four training approaches: monolingual, cross-lingual, translate-train-all, and a novel mixed method combining cross-lingual and monolingual techniques. Evaluation on an in-domain dataset demonstrates that the mixed approach achieves promising results across diverse retrieval scenarios. Furthermore, we provide a detailed analysis of how different training configurations affect the embedding space and their implications for multilingual retrieval effectiveness. Finally, we discuss deployment considerations, emphasizing the cost-efficiency of deploying a single versatile, lightweight model for real-world MLIR applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient and Versatile Model for Multilingual Information Retrieval of Islamic Text: Development and Deployment in Real-World Scenarios

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Langua...

Generative Query Expansion with Multilingual LLMs for Cross-Lingual Information ...

PaperAsk: A Benchmark for Reliability Evaluation of LLMs in Paper Search and Rea...

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce ...

Pctx: Tokenizing Personalized Context for Generative Recommendation

Навигация