📚 Саммари научных статей из arXiv

Найдено 67 результатов по запросу 'cs.IR, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The Role of Vocabularies in Learning Sparse Representations for Ranking

2025-09-24

Авторы:

Hiun Kim, Tae Kwan Lee, Taeryun Won

#### Контекст В поисковых системах существует необходимость эффективно искать информацию, сопоставляя запросы с документами. Одним из подходов является Learned Sparse Retrieval (LSR), например, SPLADE, который использует спарсные представления для 1-го этапа соответствия. Несмотря на свои преимущества, существуют ограничения, связанные с возможностями точного представления запросов и документов в спарсе пространстве. В этой области интересны методы, которые улучшают точность и эффективность LSR, в том числе исследования роли вокабуляров в представлении данных. #### Метод Мы разработали систему тестирования на основе моделей BERT с выходным вокабуляром размера 100К. Одна модель была инициализирована с помощью метода ESPLADE (Expanded SPLADE), а другая — случайно. Модели были тренированы на реальных сетевых журналах поисковых запросов. Для улучшения баланса между эффективностью и точностью использовались логит-запросы и документы, урезанные до максимального размера. Эксперименты проводились с помощью оценочного набора данных, используя подход BM25 для сравнения. #### Результаты Эксперименты показали, что оба модели, ESPLADE и случайная, эффективны при использовании предельного бюджета вычислительных ресурсов по сравнению с оригинальным SPLADE. Однако ESPLADE проявила более высокую эффективность в сравнении с рандомным вокабуляром, не увеличив при этом стоимость вычислений. Это указывает на важность конфигурации вокабуляров для оптимального представления запросов и документов в LSR. #### Значимость Результаты имеют практическое значение в области Learned Sparse Retrieval. Они демонстрируют, что выбор размера и весов вокабуляров влияет на точность и эффективность LSR. Вокабуляры не только представляют значения, но и улучшают способность модели сопоставить запросы с документами. Эти находки открывают новые пути для улучшения LSR, сфокусировавшись на вокабулярной конфигурации. #### Выводы Основным достижением является то, что размер и предобученные веса вокабуляров играют ключевую роль в формировании представлений для LSR. Будущие исследования будут сфокусированы на точном определении параметров вокабуляров для достижения баланса между эффективностью и точностью в поисковых системах.

Annotation:

Learned Sparse Retrieval (LSR) such as SPLADE has growing interest for effective semantic 1st stage matching while enjoying the efficiency of inverted indices. A recent work on learning SPLADE models with expanded vocabularies (ESPLADE) was proposed to represent queries and documents into a sparse space of custom vocabulary which have different levels of vocabularic granularity. Within this effort, however, there have not been many studies on the role of vocabulary in SPLADE models and their rel...

ID: 2509.16621v1 cs.IR, cs.CL

arXiv PDF

📄 Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe

2025-09-24

Авторы:

Chong You, Rajesh Jayaram, Ananda Theertha Suresh, Robin Nittka, Felix Yu, Sanjiv Kumar

#### Контекст Дуальные энкодеры (DE) — модели, сопоставляющие входные запросы и документы с помощью векторных представлений, широко используются в области информационного поиска из-за их простоты и масштабируемости. Однако ограничения римановой геометрии, в которой эти модели работают, приводят к потере точности в задачах, требующих высокой точности в выборке. Одна из таких задач — hierarchical retrieval (HR), в которой документы имеют иерархическую структуру, и для каждого запроса требуется найти все документы, входящие в его иерархию. В этой работе рассматривается возможность применения дуальных энкодеров в таких задачах и изучается их ограниченная эффективность при работе с документами, находящимися далеко в иерархии. #### Метод Мы исследуем свойства DE-моделей в HR и устанавливаем теоретические ограничения на их работу в зависимости от глубины иерархии и количества документов. Для решения недостатка точности в работе с документами далекого уровня иерархии предлагается метод, состоящий из двух этапов: предварительного обучения (pretraining) и особый рецепт файна-тюнинга (finetune). Эта модель называется **Hierarchical Retriever**. На основе её архитектуры мы стараемся повысить качество работы DE-моделей в задачах HR, когда необходимо выбрать документы, находящиеся глубоко в иерархии. #### Результаты Мы проводим эксперименты на данных организованных в иерархической структуре (WordNet). Мы показываем, что при использовании DE-моделей без рецепта pretrain-finetune, точность задачи HR падает при работе с документами, находящимися далеко в иерархии. Однако при использовании нашего рецепта, точность возврата документов далекого уровня увеличивается с 19% до 76%, не ухудшаясь для ближних документов. Также мы проводим эксперименты на данных релевантности поиска продуктов в интернет-магазине и показываем, что наш метод добавляет качеству работы DE-моделей при выборе подходящего документа. #### Значимость Наш метод может быть применен в различных приложениях, где необходима высокая точность в выборе документов в иерархических структурах, таких как веб-поиск, вопрос-ответ-системы и рекомендательные системы. Одна из ключевых преимуществ — улучшение точности при выборе документов далекого уровня в иерархии. Мы показываем, что наша модель не только повышает качество работы, но и может использоваться в реальной жизни для решения задач в области поиска и рекомендаций. #### Выводы Мы проанализировали ограничения дуальных энкодеров в задачах HR и предложили решение, позволяющее увеличить точность работы этих моделей на документах, находящихся далеко в иерархии. Наши эксперименты показали, что наш метод существенно повышает точность задачи с примен

Annotation:

Dual encoder (DE) models, where a pair of matching query and document are embedded into similar vector representations, are widely used in information retrieval due to their simplicity and scalability. However, the Euclidean geometry of the embedding space limits the expressive power of DEs, which may compromise their quality. This paper investigates such limitations in the context of hierarchical retrieval (HR), where the document set has a hierarchical structure and the matching documents for ...

ID: 2509.16411v1 cs.IR, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

2025-09-24

Авторы:

Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan

#### Контекст Увеличение объема данных и многообразия моделей обработки решаются с помощью мультимодальных моделей. Одной из проблем является качество обработки информации и ее точность в различных контекстах. Многие модели вынуждены оптимизировать как выравнивание, так и скорость обработки данных, что приводит к сложностям в реализации. Требуется модель, которая могла бы сочетать высокую точность и эффективность, а также удовлетворять требованиям различных сценариев применения. #### Метод Мы предлагаем MetaEmbed, новую архитектуру для мультимодального взаимодействия, которая использует последовательность Meta-токенов в качестве векторов для запросов и документов. Задача MetaEmbed состоит в том, чтобы лучше управлять хранением информации в сложной мультимодальной среде. Затем, во время обучения, мы добавляем заранее определенные мета-токены к входной последовательности. Во время выполнения, эти мета-токены представляют собой контекстные векторы, которые могут расширяться в несколько векторов для эффективной обработки. Метод Matryoshka Multi-Vector Retrieval обеспечивает выбор того, сколько векторов будет использовано в зависимости от требований к скорости и точности. #### Результаты Мы проверили MetaEmbed на двух больших наборах данных, Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe). Наши результаты показали, что MetaEmbed показывает высокую эффективность и гибкость при работе с моделями, имеющими до 32 миллиардов параметров. Она удачно обеспечивает безупречное качество во время обработки и способна эффективно масштабироваться в зависимости от требований. #### Значимость Метод MetaEmbed может быть применен в различных сценариях, таких как поиск изображений, текста, а также в любых задачах, требующих высокого качества поиска и эффективности. Он обеспечивает дополнительные преимущества, такие как гибкость в выборе векторов и удобство в интеграции с другими моделями. Это открывает путь к новым возможностям в мультимодальной обработке, что может повлиять на развитие машинного обучения в области визуальных систем. #### Выводы Мы представили MetaEmbed, создав модель, которая значительно улучшает представление информации в мультимодальных средах. Мы показали, что модель хорошо справляется с масштабированием и достигает высокого качества работы в разных условиях. Наша работа открывает новые возможности для будущих исследований, в том числе в строительстве более эффективных моделей для мультимодальных задач.

Annotation:

Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are co...

ID: 2509.18095v1 cs.IR, cs.CL, cs.CV

arXiv PDF

📄 Enhancing Time Awareness in Generative Recommendation

2025-09-19

Авторы:

Sunkyung Lee, Seongmin Park, Jonghyo Kim, Mincheol Yoon, Jongwuk Lee

#### Контекст Модели рекомендаций являются ключевым инструментом для поддержки пользователей в принятии решений, оптимизировав выбор товаров или услуг. Несмотря на то, что традиционные модели, такие как matrix factorization и collaborative filtering, достаточно эффективны в некоторых задачах, они не учитывают глубокие структуры данных, такие как последовательность пользовательских действий и временные характеристики. Генеративные модели рекомендаций (generative recommendation), в свою очередь, формулируют рекомендации в виде задачи текст-на-текст (text-to-text) и используют знания больших языковых моделей. Однако, существующие генеративные модели недостаточно учитывают динамику времени в пользовательских предпочтениях, что может привести к неточности рекомендаций. Целью настоящего исследования является разработка методологии, эффективно интегрирующей временные сигналы для повышения точности рекомендаций. #### Метод Модель Generative Recommender Using Time Awareness (GRUT) представляет собой инновационный подход к решению проблемы нехватки временной сенситивности в генеративных моделях рекомендаций. GRUT включает два основных компонента. **Time-aware Prompting** является методом, который вводит два ключевых контекста: **user-level temporal context** и **item-level transition context**. Отдельно, **user-level temporal context** анализирует персональные временные предпочтения пользователей на основе данных об их действиях во времени. **Item-level transition context**, в свою очередь, учитывает переходы между предпочтениями пользователей и их предпочтениями по отношению к различным предложенным товарам. **Trend-aware Inference** — это дополнительный модуль, который не требует дополнительной тренировки, но использует информацию о трендах, чтобы доработать рекомендации, учитывая вероятность появления элементов в рекомендациях. Это позволяет улучшить порядок элементов в рекомендациях без изменения модели. #### Результаты Для оценки эффективности GRUT проведено ряд экспериментов на четырьмя открытыми наборами данных: **Amazon-Book**, **LastFM**, **MovieLens-20M** и **Yelp-2018**. Модель GRUT была сравнена с тремя современными моделями: **GRU4Rec**, **SASRec** и **BERT4Rec**. Результаты показали, что GRUT превосходит другие модели в двух ключевых метриках: **Recall@5** и **NDCG@5**. Точность GRUT увеличилась на 15.4% и 14.3% соответственно по сравнению с оригинальными моделями. Эти результаты демонстрируют преимущество GRUT в учете временных сигналов, что значительно повышает точность рекомендаций. #### Значимость GRUT может быть применена в различных областях, где временные сигналы играют ключевую роль, таких как: - **Электронная коммерция**: помогает рекомендовать товары, учитывая временные предпочтения и тренды. - **Streaming-сервисы**: улучшает рекомендации по музыке или видео, учи

Annotation:

Generative recommendation has emerged as a promising paradigm that formulates the recommendations into a text-to-text generation task, harnessing the vast knowledge of large language models. However, existing studies focus on considering the sequential order of items and neglect to handle the temporal dynamics across items, which can imply evolving user preferences. To address this limitation, we propose a novel model, Generative Recommender Using Time awareness (GRUT), effectively capturing hid...

ID: 2509.13957v1 cs.IR, cs.CL

arXiv PDF

📄 GEM-Bench: A Benchmark for Ad-Injected Response Generation within Generative Engine Marketing

2025-09-19

Авторы:

Silan Hu, Shiqi Zhang, Yimin Shi, Xiaokui Xiao

#################### ## Контекст #################### Generative Engine Marketing (GEM) представляет собой возникающую экосистему для маркетингового использования генерирующих движков, таких как LLM-based chatbots. Основной задачей GEM является сбалансированное внедрение рекламных сообщений в ответы движков без ухудшения качества выдачи информации. Чтобы повысить качество решений в этой области, необходимо развивать инструменты для эффективного тестирования и оценки поведения генерирующих движков в контексте GEM. Несмотря на растущую популярность GEM, существуют мало данных для выявления требований к генерируемым ответам, в том числе по внедрению рекламных сообщений. Это ограничивает возможности проведения исследований в этой области. ************************* ## Метод ************************* GEM-Bench представляет собой первый полный бенчмарк, ориентированный на генерируемые ответы с внедрением рекламных сообщений в контексте GEM. Он включает три датасета, разработанные для обеспечения захвата различных сценариев, таких как беседы с чатботами и поисковые запросы. Бенчмарк также определяет метрики толерабельности рекламы и удовлетворенности пользователя, что позволяет анализировать качество ответов от нескольких разных углов. Для оценки полученных данных, GEM-Bench предлагает несколько алгоритмов, реализованных в расширяемой многоагентной среде. Такая архитектура позволяет проводить сравнительный анализ разных методов решения задачи. ************************* ## Результаты ************************* В ходе экспериментов с GEM-Bench были протестированы несколько стратегий внедрения рекламы в ответы. Было выявлено, что простые методы основывающиеся на простых подсказках (prompt-based methods) демонстрируют удовлетворительную заинтересованность пользователей (например, показатели кликабельности), но при этом снижают удовлетворенность пользователя. Обратно, подходы, основанные на предварительной генерации ответов без рекламы, позволяют избежать этой проблемы, но при этом увеличивают накладные расходы. Эти результаты показывают, что для достижения баланса между удовлетворенностью пользователя и эффективностью внедрения рекламы требуется развитие более продвинутых и инновационных подходов. ************************* ## Значимость ************************* Бенчмарк GEM-Bench открывает новые возможности для изучения проблем возникающих в генерирующих движках с внедрением рекламы. Он может быть применен в разработке новых методов анализа поведения пользователей, в том числе с учетом ситуаций, когда реклама встраивается в ответы. Благодаря развитию таких инструментов можно ожидать повышения качества GEM-систем, т.к. он позволит разрабатывать более эффективные способы внедрения рекламы, сохраняя высокую удовлетворенность пользователей. ****************

Annotation:

Generative Engine Marketing (GEM) is an emerging ecosystem for monetizing generative engines, such as LLM-based chatbots, by seamlessly integrating relevant advertisements into their responses. At the core of GEM lies the generation and evaluation of ad-injected responses. However, existing benchmarks are not specifically designed for this purpose, which limits future research. To address this gap, we propose GEM-Bench, the first comprehensive benchmark for ad-injected response generation in GEM...

ID: 2509.14221v1 cs.IR, cs.CL

arXiv PDF

📄 LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations

2025-09-18

Авторы:

Robin Vujanic, Thomas Rueckstiess

Описание статьи: ## Контекст **LEAF** ("Lightweight Embedding Alignment Framework") — это инновационная методология для тренировки моделей текстовых эмбеддингов. Она стремится улучшить эффективность моделей, создаваемых с помощью значительно более мощных "учительских" моделей. Эта проблема актуальна в сфере обработки естественного языка, где необходимо сбалансировать качество результатов и вычислительные затраты. Основная проблема, которую решает LEAF, заключается в трудности достижения высокой модельной эффективности без потери точности. Традиционные подходы часто требуют значительных ресурсов для обучения и хранения моделей. LEAF предлагает универсальный фреймворк, который может быть применен к различным задачам, таким как информационная поисковая система и многозадачные модели. ## Метод LEAF основывается на **процессе знаний извлечения из моделей** (knowledge distillation). Он учитывает специфику семантического взаимодействия между текстами, предлагая асимметричную архитектуру: "учитель" — большая модель для кодирования документов, "ученик" — меньшая модель для обработки запросов. Основным изобретением является система **teacher-aligned representations**, которая позволяет моделям-ученикам автоматически получать свойства, такие как многозадачность (MRL) и устойчивость к квантованию, без дополнительной тренировки. Также, LEAF требует малого количества данных и ресурсов, что делает его привлекательным для реализации на устройствах с ограниченными мощностями. ## Результаты Результаты тестирования LEAF показали выдающиеся результаты. Модель leaf-ir, размером 23 миллионов параметров, стала новым стандартом точности (SOTA) на бенчмарке **BEIR**, опередив все модели схожего размера. Кроме того, в асимметричном режиме, где документы обрабатываются большой моделью, а запросы — упрощенной моделью, выдача LEAF значительно улучшилась. Другая модель, **leaf-mt**, показала схожий успех, став новым стандартом точности на **MTEB v2 (English)**. Этот результат продемонстрирован на практике, с указанием повышения эффективности и уменьшения ресурсов. ## Значимость LEAF открывает новые возможности в области моделей текстовых эмбеддингов. Он позволяет использовать большие модели для генерации данных, в то же время уменьшая затраты на их развертывание в сервисах. Такие модели могут использоваться в различных задачах, включая информационное поисковое взаимодействие, многозадачные модели, а также для оптимизации работы на устройствах с ограниченными ресурсами. Особенно важно, что LEAF не требует трудоемких стадий обучения с трудными отрицательными примерами, что делает его привлекательным для разработчиков. ## В

Annotation:

We present LEAF ("Lightweight Embedding Alignment Framework"), a knowledge distillation framework for text embedding models. A key distinguishing feature is that our distilled leaf models are aligned to their teacher. In the context of information retrieval, this allows for flexible asymmetric architectures where documents are encoded with the larger teacher model, while queries can be served with the smaller leaf models. We also show that leaf models automatically inherit MRL and robustness to ...

ID: 2509.12539v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 ReFineG: Synergizing Small Supervised Models and LLMs for Low-Resource Grounded Multimodal NER

2025-09-17

Авторы:

Jielong Tang, Shuang Wang, Zhenxing Wang, Jianxing Yu, Jian Yin

## Контекст Grounded Multimodal Named Entity Recognition (GMNER) представляет собой расширение традиционной NER, которое включает в себя детектирование текстовых фраз и их графическое упоминание в изображениях. Хотя существующие супервизорные методы показывают высокую точность, они требуют дорогостоящих мультимодальных аннотаций и часто сталкиваются с проблемами в узких, low-resource диапазонах. Использование Multimodal Large Language Models (MLLMs) обеспечивает сильную общая обустройствованность, но они страдают от Domain Knowledge Conflict, когда модель генерирует ненужные или неточные элементы для domain-specific entities. Наша цель заключается в том, чтобы создать решение, которое будет эффективно справляться с этими проблемами в низкоресурсных областях. ## Метод Мы предлагаем ReFineG, трехэтапную систему, которая объединяет небольшие супервизорные модели с замороженными MLLMs. В первой стадии, **Training Stage**, мы используем стратегию синтеза данных для NER, которая позволяет передавать LLM-знания в small-scale supervised модели, избегая Domain Knowledge Conflict. Во второй стадии, **Refinement Stage**, мы применяем неопределенность-ориентированный механизм, который сохраняет уверенные предсказания модели и передает более неуверенные на MLLM для дополнительной обработки. На третьей стадии, **Grounding Stage**, мы совершаем multimodal context selection, используя analogical reasoning для улучшения графического упоминания. ## Результаты Мы провели эксперименты на CCKS2025 GMNER Shared Task, где ReFineG достигла F1-меры в 0.6461, опередив многие соревнования. Выполняя требования к low-resource domain, ReFineG показала сильную эффективность с ограниченными аннотациями. Мы также проверили эффективность каждого этапа через ряд тестов и анализировали точность в различных условиях. ## Значимость ReFineG может применяться в различных сферах, где требуется нейроизвлечение с мультимодальным контекстом, такие как медицина, юриспруденция и high-tech. Наши результаты показывают, что данный подход может значительно улучшить результаты в узких областях, где данные и аннотации ограниченны. Преимущества ReFineG включают адаптивность, эффективность при работе с небольшими данными и сильную графическую гранулярность. Будущие исследования будут сфокусированы на расширении моделей для более широких областей и улучшении технологий grounding. ## Выводы ReFineG показала свою эффективность в низкоресурсных GMNER-задачах, доказав силу трёхэтапного синергетического подхода. Мы выделили себя среди конкурентов на CCKS2025 GMNER Shared Task. Наше исследование открывает новые возможности для применения AI в low-resource domains, а также подчеркивает важность совместной работы между small supervised models и MLLMs. Мы планируем расширить ReFineG для дополнительных типов multimodal data и улучшить её scalability

Annotation:

Grounded Multimodal Named Entity Recognition (GMNER) extends traditional NER by jointly detecting textual mentions and grounding them to visual regions. While existing supervised methods achieve strong performance, they rely on costly multimodal annotations and often underperform in low-resource domains. Multimodal Large Language Models (MLLMs) show strong generalization but suffer from Domain Knowledge Conflict, producing redundant or incorrect mentions for domain-specific entities. To address ...

ID: 2509.10975v1 cs.IR, cs.CL

arXiv PDF

📄 Generative Engine Optimization: How to Dominate AI Search

2025-09-13

Авторы:

Mahe Chen, Xiaoxuan Wang, Kaiwen Chen, Nick Koudas

## Контекст Область исследования сфокусирована на влиянии развивающихся технологий, таких как AI Search, на традиционные методы организации информации в интернете. Существующая проблема заключается в том, что традиционные подходы к оптимизации для систем поиска (Search Engine Optimization, SEO) становятся менее эффективными в отношении новых систем, таких как ChatGPT, Perplexity и Gemini. Эти системы изменяют способ поиска и представления информации, переходя от традиционных рейтинговых списков к синтезированным, цитируемым ответам. Это создает необходимость в разработке нового подхода, Generative Engine Optimization (GEO), который бы специализировался на оптимизации для AI-поисковых систем. Мотивация заключается в том, чтобы понять, как эти новые системы работают, и как оптимизировать контент, чтобы оставаться видимыми в новой среде поиска. ## Метод Для исследования использовались бо LLM (Large Language Models), которые анализировали различия в поведении AI Search и традиционных систем поиска. Методология включала в себя широкий спектр экспериментов, включающих запросы на различных языках, стилистическими вариациями и различными тематиками. Был проведен сравнительный анализ того, как разные AI-системы и традиционные поисковые системы, такие как Google, обрабатывают запросы и возвращают ответы. Особое внимание уделялось изучению системного биаса, который показывал, как AI Search отдают предпочтение определенному типу контента, аддикт структуру и избегают других. Данные были собраны из различных источников и проанализированы с помощью статистических методов, чтобы выделить существенные различия в поведении AI Search. ## Результаты Эксперименты показали, что AI Search значительно отличаются от традиционных систем поиска. Они предпочитают Earned Media (третьичные источники, например, блоги, статьи в журналах) в отличие от Brand-owned и Social Content. Это создает новую модель взаимодействия с пользователем, где требуется больше авторитетного, независимого контента. Также было выявлено, что разные AI-системы отличаются по Domain Diversity (разнообразию источников), Freshness (актуальности информации) и Cross-Language Stability (постоянности результатов в разных языках). Например, Gemini демонстрирует лучшую Freshness, а Perplexity — более высокую Domain Diversity. Кроме того, были выявлены сильные Cross-Language и Phrasing Sensitivity (чувствительность к вариациям запросов и языковых вариантов). ## Значимость Результаты имеют большое значение для разных областей. Они могут быть применены в SEO, content marketing, и digital strategy. Одним из основных преимуществ нового подхода является улучшение видимости контента в AI Search, что может привести к повышению доверия пользователей и увеличению конверсий. Благодаря анализу

Annotation:

The rapid adoption of generative AI-powered search engines like ChatGPT, Perplexity, and Gemini is fundamentally reshaping information retrieval, moving from traditional ranked lists to synthesized, citation-backed answers. This shift challenges established Search Engine Optimization (SEO) practices and necessitates a new paradigm, which we term Generative Engine Optimization (GEO). This paper presents a comprehensive comparative analysis of AI Search and traditional web search (Google). Throu...

ID: 2509.08919v1 cs.IR, cs.CL, cs.SI

arXiv PDF

📄 Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive Retrieval

2025-09-11

Авторы:

Haike Xu, Tong Chen

## Контекст В современной области отбора информации сталкиваются с рядом ограничений, связанных с использованием последовательных методов повторного оценивания (reranking). Ограничением является качество исходного результата отбора, которое определяет качество всего процесса. Более того, рост вычислительных требований для моделей типа Large Language Models (LLM) увеличивает затраты на рекурсивную оценку документов. Эти ограничения влияют на то, насколько эффективно могут быть обработаны большие объемы документов. Необходимо разработать новый подход, который сможет повысить эффективность отбора в условиях ограниченного бюджета на рекурсивную оценку. ## Метод Новая методология, предложенная авторами, Reranker-Guided-Search (RGS), представляет собой непоследовательный подход к достижению целей отбора. Она основывается на графах близости, построенных с использованием алгоритмов удаленности (approximate nearest neighbor algorithms). Этот подход стратегически выбирает документы для повторного оценивания, опираясь на прогноз модели повторного оценивания (reranker). Этот подход позволяет лучше использовать ресурсы, ограничивая число документов, подлежащих повторному проверке. Решение заключается в алгоритме поиска, применяющемся к графу близости, для оптимизации выбора документов, которые будут использоваться для повторного оценивания. ## Результаты В экспериментах показано, что новый подход существенно повышает эффективность отбора. Улучшения наблюдаются по разным метрикам на нескольких наборах данных. Например, есть прирост в 3.5 баллов на BRIGHT, 2.9 на FollowIR, и 5.1 на M-BEIR. Этот результат достигнут в пределах установленного ограничения на число документов, подлежащих повторному оцениванию (100 документов). Эти результаты подтверждают, что стратегический выбор документов для повторного оценивания может улучшить точность отбора, даже при ограничениях на ресурсы. ## Значимость Результаты имеют значительное значение для приложений, где необходима высокая точность отбора в условиях ограниченных ресурсов, таких как мобильные приложения, системы поиска в реальном времени и системы поддержки принятия решений. Выгоды Reranker-Guided-Search заключаются в его способности оптимизировать выборс точек для повторного оценивания, что позволяет экономить вычислительные ресурсы без ущерба для точности. Это может привести к более быстрому и эффективному отбору, что важно для реального времени и ограниченных ресурсов. ## Выводы Результаты доказывают, что RGS является эффективным инструментом для повышения точности отбора в условиях ограниченных ресурсов. Он может использоваться в разных сферах, где необходима эффективная обработка больших наборов документов.

Annotation:

The widely used retrieve-and-rerank pipeline faces two critical limitations: they are constrained by the initial retrieval quality of the top-k documents, and the growing computational demands of LLM-based rerankers restrict the number of documents that can be effectively processed. We introduce Reranker-Guided-Search (RGS), a novel approach that bypasses these limitations by directly retrieving documents according to reranker preferences rather than following the traditional sequential rerankin...

ID: 2509.07163v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Evaluating the Robustness of Retrieval-Augmented Generation to Adversarial Evidence in the Health Domain

2025-09-06

Авторы:

Shakiba Amirshahi, Amin Bigdeli, Charles L. A. Clarke, Amira Ghenai

## Контекст В последние годы вызвала волну интереса развитие Large Language Models (LLM), которые используются в различных приложениях, включая ответы на вопросы, генерацию текста и другие задачи. Однако эти модели часто страдают от генерации неверной информации, известной как "генерация мусора" (hallucinations). Чтобы уменьшить эту проблему, была предложена методика Retrieval-Augmented Generation (RAG), в которой модель использует дополнительный контекст (evidence) из внешней базы данных для фактического обоснования своих ответов. Эта техника позволяет улучшить точность ответов, особенно в контексте отсутствия подходящих данных в обучающих данных модели. Однако возникла новая проблема: RAG может также интегрировать и распространять неверную или даже злонамеренную информацию, представленную в источниках. Это особенно критично в высокорисковых областях, таких как здравоохранение, где неверные ответы могут привести к вредным последствиям. Цель данной работы — изучить уязвимость RAG к злонамеренному контенту и разработать способы её устранения. ## Метод Для исследования была разработана систематическая методика, включающая эксперименты с разными типами документов: полезными, вредоносными и злонамеренными. Для выбора использовались вопросы в области здравоохранения, которые могут быть сформулированы разными способами. Были использованы две основные модели RAG: RETRO и RAG-BART. Для оценки устойчивости RAG к злонамеренному контенту было проведено эксперименты с вариациями формулировок вопросов и типов документов. Эта методика позволяет изучить, насколько RAG устойчива к разным видам манипуляций с контентом и представляет собой новый подход к оценке устойчивости таких систем. ## Результаты Опытным путем было показано, что злонамеренная информация влияет на устойчивость RAG и может привести к существенной медицинской неточности в ответах. Было выявлено, что при добавлении злонамеренного контента в выборку документов RAG-BART сильно ухудшает свою точность и начинает выдавать неверные ответы. В то же время, при наличии поддерживающего контекста, RAG-BART способна сохранить высокую точность и отдавать корректные ответы даже при влиянии злонамеренного контента. Эти результаты показали, что устойчивость RAG к злонамеренному контенту зависит от качества используемых документов и их формулировок. Также были выявлены характерные шаблоны манипуляций, которые могут быть применены для снижения устойчивости RAG. ## Значимость Результаты имеют важное значение для применения RAG в высокорисковых областях, таких как здравоохранение. Например, в этой области могут во

Annotation:

Retrieval augmented generation (RAG) systems provide a method for factually grounding the responses of a Large Language Model (LLM) by providing retrieved evidence, or context, as support. Guided by this context, RAG systems can reduce hallucinations and expand the ability of LLMs to accurately answer questions outside the scope of their training data. Unfortunately, this design introduces a critical vulnerability: LLMs may absorb and reproduce misinformation present in retrieved evidence. This ...

ID: 2509.03787v1 cs.IR, cs.CL

arXiv PDF

1
2
3
4
5
6
7

Показано 41 - 50 из 67 записей