CLAP: Coreference-Linked Augmentation for Passage Retrieval

2508.06941v1 cs.IR, cs.AI, 68T50, I.2.7; H.3.3 2025-08-14
Авторы:

Huanwei Xu, Lin Xu, Liang Yuan

Резюме на русском

## Контекст Современные боLковознарочные модели (LLM) эффективно используются в репасовом поиске, оС других стоLах. Однако использование LLM для расширения пасажей (пасажиров) часто приводит к проблемам, такLо как дрейфу смыслов и несоответствию семантического пространства, на котором они были обучены. Большая часть ранее предложенных методов расширения пасажей ориентирована на то, чтобы улучшить не только значимость фрагментов, но и их значимость для семантического моделирования. Кроме того, значимая часть ранее предложенных методов полагается на дополнительную информацию, такLо как доменные сведения, что делает их менее универсальными. Наша мотивированая модель "CLAP" (Coreference-Linked Augmentation for Passage Retrieval) предлагает новую архитектуру, которая обеспечивает более точное и глубокое понимание текста, решая проблему дрейфа смыслов и несоответствия семантического пространства. ## Метод Метод CLAP состоит в том, чтобы разделить пасажи на понятные фрагменты, выявить отношения между этими фрагментами, а затем создать подпробелы, которые будут дополнять пасажи. Основные шаги в том, чтобы разбить пасажи на атомарные фрагменты, которые относятся к одному смыслу и имеют собственную семантическую структуру. Затем, мы разрешаем цепочки знаков, чтобы улучшить понимание значимости. Наконец, мы генерируем подпробелы, которые учитывают топологические связи и не только фрагменты. Это позволяет нашей модели лучше понимать смысл пасажа и сопоставлять его с запросом. ## Результаты Мы провели ряд экспериментов, используя различные данные, в том числе MS MARCO, TREC DL и Natural Questions. Мы сравнивали нашу модель CLAP с другими методами расширения пасажей, такими как BM25, DPR и BM25 + MonoT5. Эксперименты показали, что CLAP улучшает эффективность поиска, увеличивая absolute nDCG@10 с 20.68% в сравнении с другими методами. Мы также показали, что CLAP имеет высокую гибкость и показывает свою эффективность при работе в разных доменах. Эти результаты подтверждают то, что CLAP является более универсальной моделью, чем многие другие, которые могут испытывать проблемы при работе в разных контекстах. ## Значимость CLAP является полезной в разных областях, в том числе в поиске информации, в системах рекомендаций и в работе с большими данными. Одним из основных преимуществ является ее универсальность и доступность в разных доменах, не требующей дополнительной информации. Это позволяет CLAP использоваться в различных системах, которые требуют более точного понимания текста. Мы также полагаем, что в будущем CLAP может быть использована для улучшения систем заданий, которые

Abstract

Large Language Model (LLM)-based passage expansion has shown promise for enhancing first-stage retrieval, but often underperforms with dense retrievers due to semantic drift and misalignment with their pretrained semantic space. Beyond this, only a portion of a passage is typically relevant to a query, while the rest introduces noise--an issue compounded by chunking techniques that break coreference continuity. We propose Coreference-Linked Augmentation for Passage Retrieval (CLAP), a lightweight LLM-based expansion framework that segments passages into coherent chunks, resolves coreference chains, and generates localized pseudo-queries aligned with dense retriever representations. A simple fusion of global topical signals and fine-grained subtopic signals achieves robust performance across domains. CLAP yields consistent gains even as retriever strength increases, enabling dense retrievers to match or surpass second-stage rankers such as BM25 + MonoT5-3B, with up to 20.68% absolute nDCG@10 improvement. These improvements are especially notable in out-of-domain settings, where conventional LLM-based expansion methods relying on domain knowledge often falter. CLAP instead adopts a logic-centric pipeline that enables robust, domain-agnostic generalization.

Ссылки и действия