📚 Саммари научных статей из arXiv

Найдено 58 результатов по запросу 'cs.CR, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

2025-09-27

Авторы:

Jiahao Huo, Shuliang Liu, Bin Wang, Junyan Zhang, Yibo Yan, Aiwei Liu, Xuming Hu, Mingxun Zhou

#### Контекст Появление больших языковых моделей (LLMs) в последнее время стало сильным двигателем развития искусственного интеллекта, предоставляя мощные инструменты для генерирования текста. Однако эти модели не являются идеальными: они могут легко исказиться под действием атак, включая модификации и парафразирование текста. Чтобы обеспечить безопасность и авторство, развитие эффективного метода watermarking (метки водяных знаков) для LLMs стало ключевым. Некоторые текущие решения, основывающиеся на традиционных подходах, показывают недостаточную гибкость и имеют слабые теоретические гарантии. Другие подходы, основанные на reject-sampling, часто приводят к существенным изменениям в распределении текста, что снижает качество и удобочитаемость. Данная статья фокусируется на этих проблемах, предлагая новую теоретическую модель для улучшения водояных знаков на семантическом уровне (semantic-level watermarking, SWM). #### Метод Мы предлагаем новую теоретическую модель для SWM, основанную на концепции proxy functions (PF). Эти функции преобразуют отдельные предложения в скалярные значения, позволяя оценивать семантический контент. На основе этой модели, мы представляем PMark — новую SWM-методику, которая динамически оптимизирует PF-медиану для каждого предложения с помощью процедуры семплирования. Для усиления watermarking-сигнала мы вводим множество PF-контрольных каналов (channels). Таким образом, PMark обеспечивает робастную семантическую водояную метку, которая устойчива к парафразированию и модификациям текста. Для лучшей эффективности мы также предлагаем оптимизированную версию PMark, убирающую необходимость динамического оценивания медианы PF. #### Результаты Мы проводим различные эксперименты, включая сравнение с тремя существующими SWM-методами, для оценки качества текста и устойчивости к атакам. Используя разные тестовые тексты, мы демонстрируем, что PMark сохраняет достоверную водояную метку даже в условиях сильных атак, без заметного снижения качества текста. Кроме того, оптимизированная версия PMark показывает значительные улучшения в производительности семплирования, что увеличивает эффективность при реализации в производственных условиях. #### Значимость Метод PMark имеет широкие области применения, включая защиту авторских прав на LLMs, системы мониторинга для смарт-ассистентов, идентификацию авторства в обучении LLMs и другие задачи, требующие гарантий надёжности в текстовых данных. Он обеспечивает высокую устойчивость к атакам, не требуя серьёзных изменений в тексте и сохраняя высокое качество. Это делает PMark подходом

Annotation:

Semantic-level watermarking (SWM) for large language models (LLMs) enhances watermarking robustness against text modifications and paraphrasing attacks by treating the sentence as the fundamental unit. However, existing methods still lack strong theoretical guarantees of robustness, and reject-sampling-based generation often introduces significant distribution distortions compared with unwatermarked outputs. In this work, we introduce a new theoretical framework on SWM through the concept of pro...

ID: 2509.21057v1 cs.CR, cs.CL

arXiv PDF

📄 Localizing Malicious Outputs from CodeLLM

2025-09-24

Авторы:

Mayukh Borana, Junyi Liang, Sai Sathiesh Rajan, Sudipta Chattopadhyay

#### Контекст Машинное обучение (ML), особенно в сфере генерирующих моделей языка, повсеместно применяется в различных областях. Однако такие модели часто становятся целью атак, в том числе вредоносных. Например, вредоносные акторы могут использовать такие модели для внедрения backdoor-триггеров, которые могут быть активированы за счет конкретных входных данных. Это может привести к выводу вредоносных результатов или действий. Таким образом, исследование методов, позволяющих обнаруживать и локализовать такие вредоносные выходы, является ключевым для обеспечения безопасности и надежности ML-систем. #### Метод Метод, представленный в статье, называется FreqRank и основывается на мутационном подходе. Он использует частоту появления подозрительных подстрок в выходных данных для определения вредоносных субстрок. Для этого FreqRank сравнивает частоту появления таких подстрок в выходных данных с теми, что есть в стандартных, не вредоносных выходных данных. В случае наличия высокой частоты подозрительных подстрок, они относятся к вредоносным. Для локализации backdoor-триггеров FreqRank использует полученные рейтинги, выявляя подстроки, которые влияют на вредоносный результат. Архитектура метода предполагает использование генерирующей модели языка и предоставления подстрок для тестирования их влияния. #### Результаты Чтобы проверить эффективность FreqRank, авторы ввели в работу несколько вредоносных моделей, созданных путем fine-tuning или настройки пользовательских инструкций. Эти модели были применены к трем разным задачам: кода, компиляции и описания кода. Они показали среднюю успешность атаки (Attack Success Rate, ASR) в районе 86.6%. Система FreqRank смогла выделить вредоносные выходы в 98% случаев, отображая их в пяти лучших предложениях. Было также продемонстрировано, что эффективность FreqRank растёт с увеличением количества мутаций и демонстрирует высокую точность даже при малом количестве входных данных, активирующих триггер. Это делает FreqRank 35-50% эффективнее других методов, используемых для локализации вредоносных выходов. #### Значимость FreqRank может быть применен в различных областях, где используются генерирующие модели языка, таких как кодирование, описание и генерация кода. Его особенностью является высокая точность в локализации вредоносных выходов, что позволяет быстро итоговые модели исправить. Это повышает уровень безопасности и надежности таких моделей в реальном мире. Более того, FreqRank может быть использован для контроля качества и оптимизации моделей, выявляя и устраняя возможные уязвимости. #### Выводы Результаты исследований показывают, что FreqRank является эффективным инст

Annotation:

We introduce FreqRank, a mutation-based defense to localize malicious components in LLM outputs and their corresponding backdoor triggers. FreqRank assumes that the malicious sub-string(s) consistently appear in outputs for triggered inputs and uses a frequency-based ranking system to identify them. Our ranking system then leverages this knowledge to localize the backdoor triggers present in the inputs. We create nine malicious models through fine-tuning or custom instructions for three downstre...

ID: 2509.17070v1 cs.CR, cs.CL, cs.LG

arXiv PDF

📄 A Simple and Efficient Jailbreak Method Exploiting LLMs' Helpfulness

2025-09-20

Авторы:

Xuan Luo, Yue Wang, Zefeng He, Geng Tu, Jing Li, Ruifeng Xu

#### Контекст Large Language Models (LLMs) широко применяются в различных областях, но при этом носят в себе потенциальный риск предоставления вредоносных ответов. Для укрепления безопасности LLMs развиваются методы безопасного выравнивания, направленные на предотвращение вредоносных запросов. Однако злоумышленники могут применять jailbreak-методы, которые симулируют атаки, чтобы выявить слабые места безопасности. В данной работе мы предлагаем HILL (Hiding Intention by Learning from LLMs) — новую jailbreak-методику, которая преобразует вредоносные запросы в обучающие вопросы, избегая явного выражения вредоносной интенции. Этот подход может стать полезным для тестирования безопасности LLMs и раскрытия их уязвимостей. #### Метод HILL основывается на методике гиперболического тестирования, которая позволяет превратить вредоносные запросы в вопросы с подчеркнутой позитивной окраской. Метод использует несколько ключевых индикаторов, чтобы создать прикрытый вопрос, который, при этом, не является явно вредоносным. HILL генерирует специальную архитектуру запросов, используя систему контроля предложений, которая специально скрывает суть вредоносности. Для тестирования подхода используются различные модели LLM, включая общедоступные и настраиваемые. Модель HILL продемонстрировала высокую эффективность в нахождении уязвимостей, даже при минимальных изменениях в запросе. #### Результаты Мы проверили HILL на датасете AdvBench, который содержит различные виды вредоносных запросов. Метод показал высокую эффективность, успешно атакуя большую часть моделей LLM, включая эксперименты с настраиваемыми моделями. HILL демонстрирует высокую степень общизированности и генерирует эффективные запросы с малой сложностью. Также мы реализовали ряд защитных методов и проверили их эффективность в отношении HILL. Оказалось, что большинство защитных методов не могут существенно снизить эффективность HILL, а даже некоторые ведут к усилению атак. Это указывает на значительные проблемы в современных методах безопасности для LLMs. #### Значимость HILL может быть использован в различных областях, где необходимо тестирование безопасности LLMs, в том числе в разработке безопасных моделей, в аудите безопасности и в тестировании безопасности для сторонних приложений. HILL демонстрирует преимущества в своей эффективности, систематичности и универсальности. Этот подход может способствовать развитию безопасности LLMs, выявляя уязвимости и позволяя разработчикам создавать более надежные системы. #### Выводы HILL продемонстрировал высокую эффективность в выявлении уязви

Annotation:

Safety alignment aims to prevent Large Language Models (LLMs) from responding to harmful queries. To strengthen safety protections, jailbreak methods are developed to simulate malicious attacks and uncover vulnerabilities. In this paper, we introduce HILL (Hiding Intention by Learning from LLMs), a novel jailbreak approach that systematically transforms imperative harmful requests into learning-style questions with only straightforward hypotheticality indicators. Further, we introduce two new me...

ID: 2509.14297v1 cs.CR, cs.CL

arXiv PDF

📄 Yet Another Watermark for Large Language Models

2025-09-18

Авторы:

Siyuan Bao, Ying Shi, Zhiguang Yang, Hanzhou Wu, Xinpeng Zhang

## Контекст Одним из актуальных вопросов в развитии бо LARGE LANGUAGE MODELS (LLMs) является обеспечение подлинности и владения этими моделями. Несмотря на их высокую точность и гибкость, LLMs часто используются без контроля происхождения или владения, что может привести к несанкционированному использованию. Этот феномен порождает необходимость в разработке эффективных методов водяных знаков (watermarking), которые могут помочь установить владение и следить за операцией этих моделей. Несмотря на существующие решения, они имеют ряд ограждений: либо они неэффективны для больших моделей из-за массивного количества параметров, либо требуют доступа к внутренним компонентам модели, что нежелательно в боевой ситуации. ## Метод Мы предлагаем новую модель watermarking, которая интегрирует внутренние параметры LLMs. Метод заключается в том, чтобы изменять внутреннюю структуру модели, чтобы внедрить водяной знак, который можно извлечь без доступа к модели. Это достигается путем обобщения внутренних параметров модели во время обучения, что делает водяной знак незаметным для пользователя, но при этом достаточно определенным для его выявления при необходимости. Наш подход позволяет сохранить высокую точность генерации текста, не ухудшая качество, и значительно уменьшает время обработки в сравнении с другими методами. ## Результаты Мы проверили нашу модель на нескольких тестовых выборках и сравнили её с другими популярными методами watermarking. Эксперименты показали, что наш подход выдаёт более сбалансированные результаты в терминах обнаруживаемости водяного знака и качества текста. Он позволяет извлекать водяный знак даже в условиях black-box, где у пользователя нет доступа к модели. Было доказано, что наш метод обеспечивает лучшую точность и быстроту восстановления водяного знака, чем существующие решения. ## Значимость Наш метод может применяться в различных областях, где требуется выявлять владение функциональными моделями, таких как юридические исследования, безопасность информации и авторские права. Он обеспечивает улучшенную точность и быстроту восстановления, что делает его предпочтительным в сценариях, где время и точность критичны. Более того, наш подход может иметь значительное влияние на развитие безопасного использования LLMs, позволяя лучше контролировать их использование. ## Выводы Мы представили новую модель watermarking для LLMs, которая интегрирует внутренние параметры модели для внедрения водяного знака. Наш подход позволяет достичь высокой точности, незаметности и эффективности, даже при большом количестве параметров модели. Мы рассмо

Annotation:

Existing watermarking methods for large language models (LLMs) mainly embed watermark by adjusting the token sampling prediction or post-processing, lacking intrinsic coupling with LLMs, which may significantly reduce the semantic quality of the generated marked texts. Traditional watermarking methods based on training or fine-tuning may be extendable to LLMs. However, most of them are limited to the white-box scenario, or very time-consuming due to the massive parameters of LLMs. In this paper,...

ID: 2509.12574v2 cs.CR, cs.CL

arXiv PDF

📄 From Attack Descriptions to Vulnerabilities: A Sentence Transformer-Based Approach

2025-09-05

Авторы:

Refat Othman, Diaeddin Rimawi, Bruno Rossi, Barbara Russo

#### Контекст В области информационной безопасности важность анализа и автоматизации процесса связывания атак с уязвимостями несомненна. Несмотря на то, что уязвимости часто остаются незамеченными даже после их эксплуатации, их активное использование во время атак может обеспечить важные сведения о слабых местах систем. Установление связи между атаками и уязвимостями не только позволяет значительно сократить время отклика на инциденты, но и повышает эффективность защиты систем. Однако решение этой задачи вручную, особенно в больших объемах данных, невозможно, что приводит к потребности в автоматизированных системах. Текущая исследоательская работа адресует эту проблему, оценивая различные модели трансформации предложений с целью выявления подходящих уязвимостей. #### Метод Для решения проблемы связывания атак с уязвимостями были использованы 14 современных моделей трансформации предложений, включая Sentence-BERT, MiniLM и MPNet. Модели были обучены классифицировать текстовые описания атак и связывать их с уязвимостями из Common Vulnerabilities and Exposures (CVE) репозитория. Основной фокус был уделен модели Multi-QA-MPNet-base-dot-v1 (MMPNet), которая была оценена на специально подготовленных данных, содержащих технические описания атак. Результаты экспериментов были измерены с помощью метрик F1-score, precision и recall. #### Результаты Результаты экспериментов показали, что MMPNet достигла F1-score в 89.0, precision в 84.0 и recall в 94.7 при классификации описаний атак. Было обнаружено, что 56% уязвимостей, выявленных моделью, соответствуют уязвимостям, перечисленным в CVE, в сочетании с их атаками. Дополнительно, 61% уязвимостей, выявленных моделью, соответствуют таким, как описаны в CVE. Это позволяет судить о высокой эффективности модели в выявлении связанных уязвимостей. Было также выявлено, что 275 уязвимостей, выданных моделью, не были документированы в репозитории MITRE, что может указывать на новые находки в области безопасности. #### Значимость Результаты этой работы могут быть применены в области автоматизации мониторинга безопасности, позволяя системам быстрее и эффективнее реагировать на инциденты. Также модель MMPNet может использоваться для поиска новых уязвимостей, которые еще не описаны в репозиториях. Важно отметить, что этот подход может существенно сократить время, в течение которого уязвимости остаются необнаруженными и эксплуатируемыми, что повышает уровень защиты систем. #### Выводы Результаты исследования демонтстрируют, что модель MMPNet является высокоэффективной для связывания атак с уязвимостями. В даль

Annotation:

In the domain of security, vulnerabilities frequently remain undetected even after their exploitation. In this work, vulnerabilities refer to publicly disclosed flaws documented in Common Vulnerabilities and Exposures (CVE) reports. Establishing a connection between attacks and vulnerabilities is essential for enabling timely incident response, as it provides defenders with immediate, actionable insights. However, manually mapping attacks to CVEs is infeasible, thereby motivating the need for au...

ID: 2509.02077v2 cs.CR, cs.CL, cs.LG, 68T50 Natural language processing, D.4.6; I.2.7

arXiv PDF

📄 Robustness Assessment and Enhancement of Text Watermarking for Google's SynthID

2025-08-30

Авторы:

Xia Han, Qi Li, Jianbing Ni, Mohammad Zulkernine

## Контекст В последние годы становится все более актуальным вопрос о точном отслеживании происхождения AI-генерируемого текста. Одним из важных методов является текстовый водяной знак (watermarking), который позволяет доказать владение или происхождение текста. Несмотря на развитие методов, таких как SynthID-Text от Google DeepMind, эти методы остаются уязвимыми перед определенными атаками, например, парафразированием, копированием и вставкой текста, а также технологиями перевода в обратную сторону (back-translation). Эти атаки могут существенно снизить эффективность водяных знаков, особенно в реальных условиях использования. Таким образом, вопрос о повышении устойчивости таких методов к таким нападениям становится ключевым для их реального применения в защите творческих работ. ## Метод Для решения проблемы уязвимости текстовых водяных знаков, мы предлагаем SynGuard — новую гибридную модель, которая объединяет два подхода: Semantic Information Retrieval (SIR) и probabilistic watermarking. SIR позволяет обеспечить сильное соответствие семантики между текстом и водяным знаком, чтобы гарантировать устойчивость к методам, которые могут изменять текст с минимальными семантическими изменениями. В то же время, probabilistic watermarking генерирует водяные знаки на основе многоуровневой структуры, которые могут быть выделены при необходимости. Этот двойной подход позволяет обеспечить устойчивость к атакам, уменьшая нарушение смысла и сохраняя возможность восстановления водяных знаков. ## Результаты Мы провели эксперименты, использовав различные виды атак, включая парафразирование, копирование и вставку текста, а также back-translation. Наши результаты показывают, что SynGuard показывает значительный улучшение восстановления водяных знаков, стабильно увеличивая F1-меру на 11.1% в сравнении с оригинальным SynthID-Text. Это указывает на высокую эффективность гибридного подхода в сохранении водяных знаков при атаках, предназначенных нарушать их защиту. Эксперименты проводились на реальных данных, а результаты подтверждают нашу теоретическую модель. ## Значимость Основное применение SynGuard заключается в обеспечении устойчивости текстовых водяных знаков в условиях реального использования, где текст может быть изменен без изменения его смысла. Эта модель является полезной для защиты творческих работ, легальных документов и других текстов, где владение и происхождение имеют высокий важность. Данный подход также открывает пути к будущим исследованиям в области гибридных методов, которые могут быть применены в других аналогичных задачах, таких как защита цифровых медиа. ## Выводы Результаты нашего исследования показываю

Annotation:

Recent advances in LLM watermarking methods such as SynthID-Text by Google DeepMind offer promising solutions for tracing the provenance of AI-generated text. However, our robustness assessment reveals that SynthID-Text is vulnerable to meaning-preserving attacks, such as paraphrasing, copy-paste modifications, and back-translation, which can significantly degrade watermark detectability. To address these limitations, we propose SynGuard, a hybrid framework that combines the semantic alignment s...

ID: 2508.20228v1 cs.CR, cs.CL

arXiv PDF

📄 Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning

2025-08-29

Авторы:

Yanbo Dai, Zhenlan Ji, Zongjie Li, Kuan Li, Shuai Wang

## Контекст Retrieval-Augmented Generation (RAG) является стандартным подходом для улучшения надежности крупных языковых моделей (LLMs). Ранее установлено, что RAG-системы могут быть обманутыми в генерацию выбранных атакующим выходов путем угробления знаний базы. Однако новые исследования показывают, что такие атаки могут быть подавлены сильной **самокоррекцией (Self-Correction Ability, SCA)** современных LLMs, которая может отклонять ложное содержимое при надлежащем настройке. Это препятствует атакующим в своих попытках использовать RAG-системы для подделки выводов. В отличие от предыдущих методов, которые атаковали знанийскую базу, данное исследование предлагает новый подход — **DisarmRAG**, который стремится напрямую смягчить SCA, внедряя атакующие инструкции в контекст, предоставляемый модели. ## Метод В качестве принципиального подхода **DisarmRAG** использует методы контрастного обучения для редактирования ретрайвера. Это достигается через локализованные, почти незаметные изменения в модели ретрайвера, обеспечивающие возврат злоумышленниками подготовленных инструкций только для заранее выбранных запросов, при этом сохраняя нормальное поведение ретрайвера. Для усиления злоумышленников вводят **итеративный кооптимизационный фреймворк**, автоматически находящий наиболее эффективные инструкции, еще и способные проходить подсказки-защиты. ## Результаты Нашлись и протестировались шесть LLMs, а также использовались три бенчмарка для вопросов и ответов. Результаты показали, что **DisarmRAG** способен воздействовать на ретрайвер с высокой точностью, при этом 90% успешных атак проходят без обнаружения в различных защитных условиях. Это подчеркивает необходимость в развитии ретрайвер-специфичных методов защиты. ## Значимость Полученное решение может использоваться в сферах, где подделка выводов может привести к серьезным последствиям — например, в юридических, финансовых и медицинских системах. Благодаря возможности управления выводами модели с помощью SCA, **DisarmRAG** открывает пути к более эффективной атаке и позволяет расширить границы исследований в области безопасности языковых моделей. ## Выводы Исследование установило новый тип атаки на RAG-системы, основанный на воздействии на ретрайвер. Оно показало, что ретрайвер может быть напрямую изменен для устранения самокоррекции и подготовки злонамеренных выводов. Будущие исследования должны фокусироваться на разработке эффективных защитных методов для ретрайвера и расширении обзора возможных атак на языковые модели.

Annotation:

Retrieval-Augmented Generation (RAG) has become a standard approach for improving the reliability of large language models (LLMs). Prior work demonstrates the vulnerability of RAG systems by misleading them into generating attacker-chosen outputs through poisoning the knowledge base. However, this paper uncovers that such attacks could be mitigated by the strong \textit{self-correction ability (SCA)} of modern LLMs, which can reject false context once properly configured. This SCA poses a signif...

ID: 2508.20083v1 cs.CR, cs.CL

arXiv PDF

📄 UniC-RAG: Universal Knowledge Corruption Attacks to Retrieval-Augmented Generation

2025-08-28

Авторы:

Runpeng Geng, Yanting Wang, Ying Chen, Jinyuan Jia

################################# ## Контекст ################################# Retrieval-augmented generation (RAG) является одной из наиболее популярных технологий в сфере генерируемых текстов, используемых в различных областях, таких как финансы, здравоохранение и безопасность информации. Эти системы объединяют модели генерируемого текста с возможностью взаимодействия с базами знаний, чтобы обеспечивать точные и согласованные ответы. Однако существуют многочисленные исследования, подтверждающие чувствительность RAG-систем к атакам, при которых злоумышленник может инъектировать в базу знаний злонамеренные данные, чтобы принудительно изменить вывод модели. Несмотря на это, большинство исследований сосредоточены на атаках на конкретные запросы или запросы, имеющие схожие тематики или ключевые слова. Мотивацией для настоящего исследования является разработка универсального метода атак, который может применяться против широкого круга запросов с разными темами и областями применения. ################################# ## Метод ################################# UniC-RAG (Universal Knowledge Corruption Attacks to Retrieval-Augmented Generation) представляет собой инновационный подход к атакам на базы знаний RAG-систем. Он оптимизирует количество заранее подготовленных злонамеренных текстов, чтобы они могли приводить к злонамеренным результатам в ответах модели для множества различных запросов. Чтобы увеличить эффективность атаки, мы предлагаем балансированный метод кластеризации на основе схожести, который позволяет гарантировать, что каждый класс запросов будет эффективно атакован. Эта архитектура включает в себя нейронную сеть, которая генерирует злонамеренные тексты с учетом приоритетов заданных целей (например, ориентированные на вредоносные сайты, команды или деньджинг). Разработанная методология позволяет взломщику применять одни и те же тексты для атаки на разные сценарии, что делает UniC-RAG универсальным и мощным инструментом для злоумышленников. ################################# ## Результаты ################################# Мы оценивали UniC-RAG на множестве экспериментов с различными базами знаний и запросами. В ходе экспериментов удалось достичь более 90% успешности атак при использовании всего 100 злонамеренных текстов, чтобы атаковать более 2000 различных запросов, охватывающих различные тематики и области применения. Например, в сценарии, где злоумышленник стремился подталкивать пользователей к посещению вредоносных ресурсов, UniC-RAG смог добиться того, чтобы более 90% пользователей после получения ответа системы переходили на указанные сайты. Также были проведены тесты на других целях, таких как выполнение вредоносных команд и создание деньджинга. В сравнении с имеющимися атаками UniC-RAG показал значительно лу

Annotation:

Retrieval-augmented generation (RAG) systems are widely deployed in real-world applications in diverse domains such as finance, healthcare, and cybersecurity. However, many studies showed that they are vulnerable to knowledge corruption attacks, where an attacker can inject adversarial texts into the knowledge database of a RAG system to induce the LLM to generate attacker-desired outputs. Existing studies mainly focus on attacking specific queries or queries with similar topics (or keywords). I...

ID: 2508.18652v1 cs.CR, cs.CL, I.2.7

arXiv PDF

📄 The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization

2025-08-28

Авторы:

Stephen Meisenbacher, Alexandra Klymenko, Andreea-Elena Bodea, Florian Matthes

## Контекст Дифференциальная приватность (DP) — это методология, обеспечивающая защиту частной информации в процессе обработки данных, за счет гарантии, что изменение одного или нескольких записей не повлияет на результат вычислений. Одним из приложений DP является текстовая обработка, где задача заключается в обезличивании текстов, сохранив их смысловую нагрузку. Несмотря на то, что методы обеспечения DP в текстовых данных позволяют получить проверенные защитные меры, они не всегда эффективны против атак на контекстные связи. Контекстные связи, оставляемые в результате случайности в процессе очистки текста, могут быть использованы для восстановления исходного содержания. Эта проблема, известная как **контекстная уязвимость**, является значительным риском для применения DP на практике, особенно при использовании текстовых данных. В последнее время Large Language Models (LLMs) стали сильным инструментом для решения задач научной и практической природы. Мы рассматриваем возможность использования LLMs для восстановления оригинальных данных из текстов, обработанных методами DP. Это позволяет демонстрировать риски контекстной уязвимости и разрабатывать меры для усиления защиты. ## Метод Мы используем методы оценки контекстной уязвимости DP-текстов с помощью LLMs. Набор тестов включает различные методы очистки текста с разным уровнем защиты DP. Для оценки уязвимости мы применяем предварительно обученные LLMs, которые могут выполнять различные задачи, включая классификацию, распознавание сущностей и поиск контекстных связей. Мы оцениваем качество восстановления текстов, измеряя как точность восстановления, так и потерю уровня приватности. Также мы используем LLMs для разработки алгоритмов, улучшающих защиту текстов от возможных атак. ## Результаты В результате экспериментов мы установили, что LLMs могут эффективно восстанавливать информацию из текстов, очищенных методами DP, особенно в ситуациях, когда используются неэффективные методы защиты. Наше исследование показало, что уровень повреждения контекста в текстах может значительно влиять на успешность восстановления исходных данных. Данные, прошедшие методы дифференциальной приватности с высоким уровнем защиты, оказались менее уязвимы для восстановления, чем те, где защита была недостаточно сильна. Однако, при использовании LLMs для улучшения защиты, мы обнаружили, что они могут помочь снизить уровень уязвимости, при этом сохранив качество и полезность данных. ## Значимость Наше исследование показывает, что применение LLMs в задачах DP может иметь значительный потенциал, как в деструктивном, так и в конструктивном напра

Annotation:

Differentially private text sanitization refers to the process of privatizing texts under the framework of Differential Privacy (DP), providing provable privacy guarantees while also empirically defending against adversaries seeking to harm privacy. Despite their simplicity, DP text sanitization methods operating at the word level exhibit a number of shortcomings, among them the tendency to leave contextual clues from the original texts due to randomization during sanitization $\unicode{x2013}$ ...

ID: 2508.18976v1 cs.CR, cs.CL

arXiv PDF

📄 Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models

2025-08-26

Авторы:

Guangyu Yang, Jinghong Chen, Jingbiao Mei, Weizhe Lin, Bill Byrne

## Контекст Large Language Models (LLMs) широко применяются в различных областях, но остаются уязвимыми к jailbreak-атакам — специально сконструированным запросам, нацеленным на вывод вредоносных ответов. Эти атаки могут привести к ущербному использованию моделей, в том числе распространению фальсифицированной информации и высказывания ненависти. Ответная защита затруднена тем, что атаки постоянно меняются и усложняются, при этом защитные системы требуют дорогостоящей подготовки и обучения. Это представляет собой серьезную проблему для разработчиков и пользователей подобных технологий. Основной мотивацией для нас является создание модели, способной адаптироваться к новым jailbreak-стратегиям без долговременного обучения. ## Метод Мы предлагаем Retrieval-Augmented Defense (RAD), новую систему защиты, которая использует базу данных известных jailbreak-стратегий для определения подводных смыслов в пользовательских запросах. Этот подход, называемый Retrieval-Augmented Generation, позволяет модели не только ответить на запрос, но и понять его мотивацию. RAD адаптируется к новым атакам без нужды в полном переобучении и позволяет контролировать точку соотношения безопасности и эффективности. Мы также предлагаем новую методику оценки, которая позволяет измерить эффективность защиты на разных уровнях контроля. ## Результаты Мы проводили эксперименты с помощью StrongREJECT-датасета, сравнивая RAD с эталонными защитными системами, такими как PAP и PAIR. Результаты показали, что RAD существенно снижает эффективность jailbreak-атак, сохраняя низкий уровень отклонения полезных запросов. Мы также проверили, насколько RAD устойчив к новым jailbreak-стратегиям, и продемонстрировали, как он может контролироваться для достижения оптимального баланса между безопасностью и эффективностью. ## Значимость Предлагаемый подход может использоваться в различных сферах, где LLMs применяются, например, в системах безопасности, финансовой отрасли и системах обслуживания клиентов. RAD обладает рядом преимуществ, включая уменьшение времени обучения, функциональную гибкость и возможность контролировать баланс безопасности и удобства. Его инновационность заключается в способности адаптироваться к новым атакам без полного переобучения модели, что значительно уменьшает затраты и улучшает ее реакцию на новые типы атак. ## Выводы Мы представили новую модель защиты от jailbreak-атак, которая успешно решает проблему гибкости и управляемости защиты LLMs. Наши результаты показали, что RAD эффективно работает в широком диапазоне условий и может быть использован для различных приложений. Дальнейшие исследования будут направлены на улу

Annotation:

Large Language Models (LLMs) remain vulnerable to jailbreak attacks, which attempt to elicit harmful responses from LLMs. The evolving nature and diversity of these attacks pose many challenges for defense systems, including (1) adaptation to counter emerging attack strategies without costly retraining, and (2) control of the trade-off between safety and utility. To address these challenges, we propose Retrieval-Augmented Defense (RAD), a novel framework for jailbreak detection that incorporates...

ID: 2508.16406v1 cs.CR, cs.CL

arXiv PDF

1
2
3
4
5
6

Показано 41 - 50 из 58 записей