Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation

2508.10404v1 cs.CL, cs.AI 2025-08-16

Авторы:

Huizhen Shu, Xuying Li, Qirui Wang, Yuji Kosuga, Mengqiu Tian, Zhuo Li

Резюме на русском

#### Контекст Современные естественные языковые модели (LLM), основывающиеся на глубоких нейронных сетях, достигли высокого качества в решении задач естественного языка. Однако это привело к усилению риска их использования в опасных сценариях, включая создание вредоносного контента и обход безопасности. Таким образом, проблема атак на эти модели остается актуальной для гарантии их безопасного использования. Одной из мотиваций для исследования является необходимость понять слабые места моделей и способы их улучшения. Нашим целью является разработка метода, который может генерировать мотивированные атаки на текст для тестирования и улучшения моделей. #### Метод Мы предлагаем Sparse Feature Perturbation Framework (SFPF), новую методологию для атак на тексты в целях тестирования модели. Основоположником этого подхода является использование спарсинговых автокодировщиков (Sparse Autoencoder, SAE) для выявления и модификации ключевых признаков в тексте. В рамках этого подхода мы декодируем текст с помощью SAE, чтобы получить его представление в скрытом слое, а затем применяем кластеризацию для идентификации сигналов с высокой активацией. Эти высоко активированные признаки являются мотивационными точками для последующей модификации текста. Мы выбираем те признаки, которые будут перетасовываться, чтобы сохранить злонамерение атаки, но при этом усилить сигналы безопасности. Это позволяет сгенерировать текст, который может скрыть свой вредоносный характер и успешно обходить нынешние системы защиты. #### Результаты Мы провели эксперименты с использованием различных данных, включая тексты из реальных задач естественного языка. Мы применяли наши методы к различным моделям и обнаружили, что SFPF эффективно обходит существующие методы защиты, в том числе те, которые основываются на машинном обучении и ручной моделировании. Мы также оценили полученные результаты с помощью метрик, таких как успешность атаки и сохранение смысла текста. Эксперименты показали, что SFPF вышел вперед в сравнении с другими методами, показывая высокую точность и эффективность в генерации текста, который может обходить защиту. #### Значимость Метод SFPF может быть применен в различных областях, включая тестирование безопасности моделей, анализ рисков и улучшение моделей. Одним из основных преимуществ является возможность создания мотивированных текстов, которые могут помочь в раскрытии уязвимостей моделей и их улучшении. Это может привести к более надежным и безопасным естественным языковым моделям, которые будут лучше справляться с непредвиденными входными данными. Мы считаем, что SFPF может иметь

Abstract

With the rapid proliferation of Natural Language Processing (NLP), especially Large Language Models (LLMs), generating adversarial examples to jailbreak LLMs remains a key challenge for understanding model vulnerabilities and improving robustness. In this context, we propose a new black-box attack method that leverages the interpretability of large models. We introduce the Sparse Feature Perturbation Framework (SFPF), a novel approach for adversarial text generation that utilizes sparse autoencoders to identify and manipulate critical features in text. After using the SAE model to reconstruct hidden layer representations, we perform feature clustering on the successfully attacked texts to identify features with higher activations. These highly activated features are then perturbed to generate new adversarial texts. This selective perturbation preserves the malicious intent while amplifying safety signals, thereby increasing their potential to evade existing defenses. Our method enables a new red-teaming strategy that balances adversarial effectiveness with safety alignment. Experimental results demonstrate that adversarial texts generated by SFPF can bypass state-of-the-art defense mechanisms, revealing persistent vulnerabilities in current NLP systems.However, the method's effectiveness varies across prompts and layers, and its generalizability to other architectures and larger models remains to be validated.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация