📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Defend LLMs Through Self-Consciousness

2025-08-09

Авторы:

Boshi Huang, Fabio Nonato de Paula

Огромное повышение популярности Large Language Models (LLMs) подвергло их неожиданному риску — подконтрольным атакам, таким как prompt injection. Эти атаки могут привести к непредсказуемым и, в некоторых случаях, вредоносным поведениям моделей. В настоящей работе предлагается новый подход к защите LLMs, основанный на их собственной самосознательности. Метод включает в себя два модуля: Meta-Cognitive и Arbitration. Эти модули позволяют модели оценивать и контролировать свои выводы, не требуя дополнительных внешних систем классификации. На основе двух высококачественных датасетов — AdvBench и Prompt-Injection-Mixed-Techniques-2024 — были проведены эксперименты с семьями LLMs. Результаты показали, что защитный механизм действителен, включая случаи полной или почти полной защиты в режиме Enhanced. Однако появилась компромиссная ситуация между увеличением успешности защиты и требованиями к вычислительным ресурсам. Это решение предлагает эффективную и стоимостно подходящую модель для усиления этичных защит LLMs, особенно в GenAI-средах.

Annotation:

This paper introduces a novel self-consciousness defense mechanism for Large Language Models (LLMs) to combat prompt injection attacks. Unlike traditional approaches that rely on external classifiers, our method leverages the LLM's inherent reasoning capabilities to perform self-protection. We propose a framework that incorporates Meta-Cognitive and Arbitration Modules, enabling LLMs to evaluate and regulate their own outputs autonomously. Our approach is evaluated on seven state-of-the-art LLMs...

ID: 2508.02961v1 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

2025-08-09

Авторы:

Renmiao Chen, Shiyao Cui, Xuancheng Huang, Chengwei Pan, Victor Shea-Jay Huang, QingLin Zhang, Xuan Ouyang, Zhexin Zhang, Hongning Wang, Minlie Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомодальные большие языковые модели (MLLMs) становятся все более распространенными в различных приложениях, но их безопасность остается критическим вопросом. Одним из основных угроз являются **jailbreak-атаки**, направленные на обход систем безопасности и фильтров, чтобы получить нецензурные или вредные ответы. Доныне большая часть исследований в этой области сосредоточена на максимизации **attack success rate (ASR)**, то есть успешности обхода фильтров. Однако этот подход часто игнорирует качество самих генерируемых ответов. Даже если атака удается, генерируемые ответы могут не соответствовать настоящей цели атакующего, что приводит к низкому уровню **злонамеренного контента**. Эта проблема особенно актуальна в контексте современных MLLMs, где сочетание текста и изображений требует более глубокого понимания интеграции мультимодальных компонентов. Традиционные методы атак часто используют только текстовые промпты, не используя потенциал визуальных компонентов для улучшения результатов. Недостаток комплексного подхода к оптимизации визуальных и текстовых компонентов приводит к неэффективности атак. Данная работа предлагает решение этой проблемы, представляя метод **JPS** (Jailbreak MLLMs with Collaborative Visual Perturbation and Textual Steering), который интегрирует визуальные и текстовые компоненты для повышения качества и эффективности атак. Целью является не только обход систем безопасности, но и обеспечение высокого уровня соответствия ответов цели атакующего. ## ПРЕДЛОЖЕННЫЙ МЕТОД **JPS** представляет собой инновационный подход, который сочетает **target-guided adversarial image perturbations** (адверасарные визуальные изменения) и **steering prompt** (текстовое направление запроса) в единой координированной стратегии. Алгоритм оптимизирует эти компоненты взаимодействующим образом для максимизации эффективности атаки. 1. **Визуальная компонента**: JPS применяет адверасарные изменения к входящим изображениям, которые направлены на обход систем безопасности MLLMs. Эти изменения генерируются с помощью целевого руководства, что позволяет эффективно манипулировать восприятием модели. 2. **Текстовая компонента**: "Steering prompt" генерируется с помощью многоагентной системы, которая оптимизирует текстовый запрос таким образом, чтобы он руководил генерацией ответа моделью в соответствии с целями атакующего. Два компонента (визуальный и текстовый) проходят процесс **итеративной координированной оптимизации**, что позволяет достичь высокой эффективности атаки. Этот подход отличается от традиционных методов, которые обычно работают только с одним типом компонента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода JPS были проведены эксперименты на различных MLLMs и наборах данных. Результаты показывают, что JPS достигает рекордных показателей в **ASR** (Attack Success Rate) и **MIFR** (Malicious Intent Fulfillment Rate) по сравнению с предшествующими методами. 1. **Наборы данных**: Исследование проводилось на различных бенчмарках, включая стандартные датасеты для тестирования MLLMs. 2. **Метрики**: Были использованы две основные метрики: - **ASR**: Мера успешности обхода систем безопасности. - **MIFR**: Новая метрика, оценивающая качество генерируемых ответов с точки зрения выполнения цели атакующего. Она использует Reasoning-LLM для оценки соответствия ответов цели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод JPS имеет значительное практическое применение в области безопасности искусственного интеллекта. Он позволяет оценить уязвимости MLLMs и разработать более надежные методы защиты. Кроме того, JPS может быть использован для: - **Тестирования безопасности MLLMs** в реальных условиях. - **Обнаружения уязвимостей** в существующих системах фильтрации контента. - **Разработке усовершенствованных методов защиты** от атак на мультимодальные модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод **JPS**, который устанавливает новые стандарты в области атак на MLLMs, обеспечивая высокий уровень качества и соответствия цели атакующего. Будущие исследования могут фокусироваться на улучшении методов защиты MLLMs, а также на разработке новых метрик для оценки качества генерируемых ответов. Кроме того, дальнейшее исследование может включать в себя исследование других мультимодальных компонентов, таких как видео и аудио, для создания более комплексных методов атак и защиты.

Annotation:

Jailbreak attacks against multimodal large language Models (MLLMs) are a significant research focus. Current research predominantly focuses on maximizing attack success rate (ASR), often overlooking whether the generated responses actually fulfill the attacker's malicious intent. This oversight frequently leads to low-quality outputs that bypass safety filters but lack substantial harmful content. To address this gap, we propose JPS, \underline{J}ailbreak MLLMs with collaborative visual \underli...

ID: 2508.05087v1 cs.MM, cs.AI, cs.CL, cs.CR, I.2.7; K.4.1; K.6.5

arXiv PDF

Показано 21 - 23 из 23 записей