Improving Document Retrieval Coherence for Semantically Equivalent Queries

2508.07975v1 cs.IR, cs.CL 2025-08-13

Авторы:

Stefano Campese, Alessandro Moschitti, Ivano Lauriola

Резюме на русском

#### Контекст **Область исследования**: Документные поисковые системы (Document Retrieval, DR) являются важной частью систем информационного поиска. Они предоставляют пользователям доступ к релевантным документам в ответ на запросы. **Проблемы**: Одна из главных проблем DR — нечувствительность к семантическим эквивалентным запросам. То есть, даже если запросы имеют одинаковый смысл, модели DR могут возвращать разные результаты. Это приводит к несогласованности в результатах поиска и снижению удобства использования. **Мотивация**: Эта проблема требует решения, так как согласованность в результатах поиска критична для пользовательского опыта и для профессионального применения в различных областях, таких как академический поиск, медицина, информационные системы юридической индустрии и др. #### Метод Мы предлагаем **новую версию Многонегативного Рейтингового Износа (Multi-Negative Ranking Loss, MNRL)** для обучения моделей DR. Наша потеря фокусируется на улучшении согласованности моделей в предъявлении результатов поиска для семантически эквивалентных запросов. Она оптимизируется таким образом, чтобы снизить дискретность в результатах запросов, которые имеют близкий значения смысловой структуры, но могут отличаться синтаксически. Технически, мы вводим дополнительный множественный терминовой контекст в обучение DR. Мы используем несколько негативных примеров для каждого запроса, чтобы сгладить несогласованность и обеспечить более консистентные результаты. Также вводится множественность семантической обработки, чтобы учесть различные способы интерпретации запроса. #### Результаты Мы провели эксперименты на широко известных датасетах: MS-MARCO, Natural Questions, BEIR и TREC DL 19/20. Модели, обученные нашей версией MNRL, показали улучшение в согласованности результатов до 15% по сравнению с оригинальным MNRL и другими существующими подходами. Кроме того, эти модели рекордировали **вышеупомянутую несомненную точность** в документном поиске. Это достигается благодаря уменьшению фактора несогласованности в выборе документов при семантических эквивалентных запросах. #### Значимость **Области применения**: Наш подход может использоваться в различных сферах, включая: - Информационный поиск в сети (Web Search). - Академический поиск (Academic Search). - Медицинский поиск (Medical Search). - Поиск юридических документов (Legal Document Search). **Преимущества**: Наша модель оказывается: - **Повышенной точностью** в поиске релевантных документов. - **Более устойчивой** к несогласованности в ответах на запросы. - **Гибкой** в применении к различным семантическим задачам. **Потенциальное влияние**: Это улучшение

Abstract

Dense Retrieval (DR) models have proven to be effective for Document Retrieval and Information Grounding tasks. Usually, these models are trained and optimized for improving the relevance of top-ranked documents for a given query. Previous work has shown that popular DR models are sensitive to the query and document lexicon: small variations of it may lead to a significant difference in the set of retrieved documents. In this paper, we propose a variation of the Multi-Negative Ranking loss for training DR that improves the coherence of models in retrieving the same documents with respect to semantically similar queries. The loss penalizes discrepancies between the top-k ranked documents retrieved for diverse but semantic equivalent queries. We conducted extensive experiments on various datasets, MS-MARCO, Natural Questions, BEIR, and TREC DL 19/20. The results show that (i) models optimizes by our loss are subject to lower sensitivity, and, (ii) interestingly, higher accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Document Retrieval Coherence for Semantically Equivalent Queries

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking It Down: Domain-Aware Semantic Segmentation for Retrieval Augmented Gen...

QueryGym: A Toolkit for Reproducible LLM-Based Query Reformulation

Music Recommendation with Large Language Models: Challenges, Opportunities, and ...

CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Shor...

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

Навигация