Improving Document Retrieval Coherence for Semantically Equivalent Queries
2508.07975v1
cs.IR, cs.CL
2025-08-13
Авторы:
Stefano Campese, Alessandro Moschitti, Ivano Lauriola
Резюме на русском
#### Контекст
**Область исследования**: Документные поисковые системы (Document Retrieval, DR) являются важной частью систем информационного поиска. Они предоставляют пользователям доступ к релевантным документам в ответ на запросы.
**Проблемы**: Одна из главных проблем DR — нечувствительность к семантическим эквивалентным запросам. То есть, даже если запросы имеют одинаковый смысл, модели DR могут возвращать разные результаты. Это приводит к несогласованности в результатах поиска и снижению удобства использования.
**Мотивация**: Эта проблема требует решения, так как согласованность в результатах поиска критична для пользовательского опыта и для профессионального применения в различных областях, таких как академический поиск, медицина, информационные системы юридической индустрии и др.
#### Метод
Мы предлагаем **новую версию Многонегативного Рейтингового Износа (Multi-Negative Ranking Loss, MNRL)** для обучения моделей DR. Наша потеря фокусируется на улучшении согласованности моделей в предъявлении результатов поиска для семантически эквивалентных запросов. Она оптимизируется таким образом, чтобы снизить дискретность в результатах запросов, которые имеют близкий значения смысловой структуры, но могут отличаться синтаксически.
Технически, мы вводим дополнительный множественный терминовой контекст в обучение DR. Мы используем несколько негативных примеров для каждого запроса, чтобы сгладить несогласованность и обеспечить более консистентные результаты. Также вводится множественность семантической обработки, чтобы учесть различные способы интерпретации запроса.
#### Результаты
Мы провели эксперименты на широко известных датасетах: MS-MARCO, Natural Questions, BEIR и TREC DL 19/20. Модели, обученные нашей версией MNRL, показали улучшение в согласованности результатов до 15% по сравнению с оригинальным MNRL и другими существующими подходами.
Кроме того, эти модели рекордировали **вышеупомянутую несомненную точность** в документном поиске. Это достигается благодаря уменьшению фактора несогласованности в выборе документов при семантических эквивалентных запросах.
#### Значимость
**Области применения**: Наш подход может использоваться в различных сферах, включая:
- Информационный поиск в сети (Web Search).
- Академический поиск (Academic Search).
- Медицинский поиск (Medical Search).
- Поиск юридических документов (Legal Document Search).
**Преимущества**: Наша модель оказывается:
- **Повышенной точностью** в поиске релевантных документов.
- **Более устойчивой** к несогласованности в ответах на запросы.
- **Гибкой** в применении к различным семантическим задачам.
**Потенциальное влияние**: Это улучшение
Abstract
Dense Retrieval (DR) models have proven to be effective for Document
Retrieval and Information Grounding tasks. Usually, these models are trained
and optimized for improving the relevance of top-ranked documents for a given
query. Previous work has shown that popular DR models are sensitive to the
query and document lexicon: small variations of it may lead to a significant
difference in the set of retrieved documents. In this paper, we propose a
variation of the Multi-Negative Ranking loss for training DR that improves the
coherence of models in retrieving the same documents with respect to
semantically similar queries. The loss penalizes discrepancies between the
top-k ranked documents retrieved for diverse but semantic equivalent queries.
We conducted extensive experiments on various datasets, MS-MARCO, Natural
Questions, BEIR, and TREC DL 19/20. The results show that (i) models optimizes
by our loss are subject to lower sensitivity, and, (ii) interestingly, higher
accuracy.
Ссылки и действия
Дополнительные ресурсы: