Adversarial Attacks against Neural Ranking Models via In-Context Learning

2508.15283v1 cs.IR, cs.CL 2025-08-23
Авторы:

Amin Bigdeli, Negar Arabzadeh, Ebrahim Bagheri, Charles L. A. Clarke

Резюме на русском

## Контекст В последние годы нейронные ранжирующие модели (NRMs) стали важной составляющей поисковых систем, обеспечивая высокую точность и эффективность в отборе релевантных документов. Однако, несмотря на их высокую эффективность, эти модели остаются уязвимыми к атакам, особенно в условиях малоизвестности (black-box), где злоумышленник не имеет прямого доступа к внутренней архитектуре модели. Например, новые технологии использования бо LLM (Large Language Models) позволяют злоумышленникам выдавать ложную информацию, которая может достаточно эффективно проникнуть в систему ранжирования, повлияв на решения пользователей. Это может привести к распространению заблуждений и недостоверной информации, значительно снижая доверие к поисковым системам. Наше исследование фокусируется на разработке новых методов атаки, которые могут опасно сказаться на качестве ранжирования в NRMs. ## Метод Мы предложили новую атаку, названную Few-Shot Adversarial Prompting (FSAP), которая использует возможности Large Language Models (LLMs) для создания атак в условиях малоизвестности. FSAP основывается на использовании небольшого набора примеров (few-shot examples), которые позволяют LLMs сформировать высокорейтинговые адверсарные документы. Наш метод не требует доступа к внутренней архитектуре модели, а также не требует постобработки или переписывания документов. Мы улучшили FSAP, создав два режима работы: FSAP-IntraQ, который фокусируется на локальной области (такой как один запрос), и FSAP-InterQ, который расширяет возможности для широкой общности, передавая атакующие шаблоны между различными запросами. Наши тесты показали, что FSAP может легко создавать высокорейтинговые, грамматически гармоничные и тематически согласованные документы, которые вносят негативный вклад в ранжирование, не вызывая подозрений на ложь. ## Результаты Мы проверили эффективность FSAP на двух теранскриптах TREC 2020 и 2021 по здоровью, используя четыре разных нейронных ранжирующие модели. Наши результаты показали, что документы, сгенерированные с помощью FSAP, становятся реальной угрозой для NRMs, выдавая ложное содержимое с высокой точностью, которое может занимать высокие позиции в поисковых результатах. Мы также выяснили, что FSAP может легко обойти системы, основанные на предыдущих методах, с помощью грамотно сформированного текста, который не вызывает подозрений. Это указывает на то, что FSAP может быть применен в разных сценариях, включая ситуации с открытым и закрытым исходным кодом LLMs. ## Значимость FSAP представляет собой значительную угрозу для нейронных ранжирующих моделей в поисковых системах. Е

Abstract

While neural ranking models (NRMs) have shown high effectiveness, they remain susceptible to adversarial manipulation. In this work, we introduce Few-Shot Adversarial Prompting (FSAP), a novel black-box attack framework that leverages the in-context learning capabilities of Large Language Models (LLMs) to generate high-ranking adversarial documents. Unlike previous approaches that rely on token-level perturbations or manual rewriting of existing documents, FSAP formulates adversarial attacks entirely through few-shot prompting, requiring no gradient access or internal model instrumentation. By conditioning the LLM on a small support set of previously observed harmful examples, FSAP synthesizes grammatically fluent and topically coherent documents that subtly embed false or misleading information and rank competitively against authentic content. We instantiate FSAP in two modes: FSAP-IntraQ, which leverages harmful examples from the same query to enhance topic fidelity, and FSAP-InterQ, which enables broader generalization by transferring adversarial patterns across unrelated queries. Our experiments on the TREC 2020 and 2021 Health Misinformation Tracks, using four diverse neural ranking models, reveal that FSAP-generated documents consistently outrank credible, factually accurate documents. Furthermore, our analysis demonstrates that these adversarial outputs exhibit strong stance alignment and low detectability, posing a realistic and scalable threat to neural retrieval systems. FSAP also effectively generalizes across both proprietary and open-source LLMs.

Ссылки и действия