Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning

2509.23558v1 cs.AI, cs.CR 2025-10-01

Авторы:

Zhaoqi Wang, Daqing He, Zijian Zhang, Xin Li, Liehuang Zhu, Meng Li, Jiamou Liu

Резюме на русском

#### Контекст Large language models (LLMs) развиваются стремительно и применяются во многих областях, включая поиск информации, генерацию текста, автоматизацию процессов и многое другое. Однако их развитие также сопряжено с новыми безопасностными вызовами. Одной из таких проблем является **prompt jailbreaking**, когда атакующие лица создают сложные запросы, которые вынуждают LLMs выдавать ответы, не соответствующие политикам безопасности или желаемым этичным стандартам. Этот вид атак подрывает доверие к LLMs и ослабляет их эффективность в защищенных средах. Существующие методы защиты LLM от таких атак часто оказываются недостаточно эффективными, поскольку не учитывают комплексные стратегии атакованных систем. #### Метод Мы предлагаем фреймворк PASS (Prompt Jаilbreaking via Semantic and Structural Formalization), который использует **реинфорсментное обучение** для структурирования и улучшения jailbreak-процесса. Фреймворк преобразует начальные jailbreak-запросы в формальные описания, что позволяет уменьшить видимость атаки и устранить подверждение лингвистическому анализу. Развитый GraphRAG-система (Graph Representation of Attacks and Guards) использует выделенные в процессе семантические и символические элементы для ускорения и усиления атак. Эта система адаптируется к различным ситуациям, позволяя атаковать LLMs в различных контекстах. #### Результаты Мы провести ряд экспериментов, используя открытые LLMs, такие как GPT-2 и GPT-3. Эксперименты показали, что PASS выполняет **до 30% более эффективно** в сравнении с другими методами jailbreaking. Мы также исследовали различные аспекты, включая модели, которые хорошо обучены в соответствии с нормативными стандартами, и продемонстрировали, что PASS может успешно обходить эти защиты. Особенно заметно был прирост в **подстраховочных операциях**, которые обеспечивают незаметность атак и снижают вероятность их обнаружения. #### Значимость Проанализировав результаты, мы выяснили, что PASS может быть применен в различных **безопасностных системах**, включая защиту властных ресурсов, финансовые системы и персональные данные. Вид атаки, основанный на PASS, не только усиливает техническую эффективность, но и **обеспечивает меньшую видимость** в системах мониторинга. Наш метод может быть использован для **интеллектуальной защиты** от нежелательных действий в сетях, а это в свою очередь повысит уровень безопасности LLMs в различных сферах. #### Выводы Мы доказали эффективность PASS в **улучшении jailbreaking-атак** и возможность его применения в **различных сценариях**. Наша работа открывает **новые направления** для безопасного deployment LLMs, особенно в защищенных системах. Будущие исследова

Abstract

Large language models (LLMs) have demonstrated remarkable capabilities, yet they also introduce novel security challenges. For instance, prompt jailbreaking attacks involve adversaries crafting sophisticated prompts to elicit responses from LLMs that deviate from human values. To uncover vulnerabilities in LLM alignment methods, we propose the PASS framework (\underline{P}rompt J\underline{a}ilbreaking via \underline{S}emantic and \underline{S}tructural Formalization). Specifically, PASS employs reinforcement learning to transform initial jailbreak prompts into formalized descriptions, which enhances stealthiness and enables bypassing existing alignment defenses. The jailbreak outputs are then structured into a GraphRAG system that, by leveraging extracted relevant terms and formalized symbols as contextual input alongside the original query, strengthens subsequent attacks and facilitates more effective jailbreaks. We conducted extensive experiments on common open-source models, demonstrating the effectiveness of our attack.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ASTRIDE: A Security Threat Modeling Platform for Agentic-AI Applications

Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought ...

LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Lang...

Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Impro...

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems

Навигация