Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation
2508.10404v1
cs.CL, cs.AI
2025-08-16
Авторы:
Huizhen Shu, Xuying Li, Qirui Wang, Yuji Kosuga, Mengqiu Tian, Zhuo Li
Резюме на русском
#### Контекст
Современные естественные языковые модели (LLM), основывающиеся на глубоких нейронных сетях, достигли высокого качества в решении задач естественного языка. Однако это привело к усилению риска их использования в опасных сценариях, включая создание вредоносного контента и обход безопасности. Таким образом, проблема атак на эти модели остается актуальной для гарантии их безопасного использования. Одной из мотиваций для исследования является необходимость понять слабые места моделей и способы их улучшения. Нашим целью является разработка метода, который может генерировать мотивированные атаки на текст для тестирования и улучшения моделей.
#### Метод
Мы предлагаем Sparse Feature Perturbation Framework (SFPF), новую методологию для атак на тексты в целях тестирования модели. Основоположником этого подхода является использование спарсинговых автокодировщиков (Sparse Autoencoder, SAE) для выявления и модификации ключевых признаков в тексте. В рамках этого подхода мы декодируем текст с помощью SAE, чтобы получить его представление в скрытом слое, а затем применяем кластеризацию для идентификации сигналов с высокой активацией. Эти высоко активированные признаки являются мотивационными точками для последующей модификации текста. Мы выбираем те признаки, которые будут перетасовываться, чтобы сохранить злонамерение атаки, но при этом усилить сигналы безопасности. Это позволяет сгенерировать текст, который может скрыть свой вредоносный характер и успешно обходить нынешние системы защиты.
#### Результаты
Мы провели эксперименты с использованием различных данных, включая тексты из реальных задач естественного языка. Мы применяли наши методы к различным моделям и обнаружили, что SFPF эффективно обходит существующие методы защиты, в том числе те, которые основываются на машинном обучении и ручной моделировании. Мы также оценили полученные результаты с помощью метрик, таких как успешность атаки и сохранение смысла текста. Эксперименты показали, что SFPF вышел вперед в сравнении с другими методами, показывая высокую точность и эффективность в генерации текста, который может обходить защиту.
#### Значимость
Метод SFPF может быть применен в различных областях, включая тестирование безопасности моделей, анализ рисков и улучшение моделей. Одним из основных преимуществ является возможность создания мотивированных текстов, которые могут помочь в раскрытии уязвимостей моделей и их улучшении. Это может привести к более надежным и безопасным естественным языковым моделям, которые будут лучше справляться с непредвиденными входными данными. Мы считаем, что SFPF может иметь
Abstract
With the rapid proliferation of Natural Language Processing (NLP), especially
Large Language Models (LLMs), generating adversarial examples to jailbreak LLMs
remains a key challenge for understanding model vulnerabilities and improving
robustness. In this context, we propose a new black-box attack method that
leverages the interpretability of large models. We introduce the Sparse Feature
Perturbation Framework (SFPF), a novel approach for adversarial text generation
that utilizes sparse autoencoders to identify and manipulate critical features
in text. After using the SAE model to reconstruct hidden layer representations,
we perform feature clustering on the successfully attacked texts to identify
features with higher activations. These highly activated features are then
perturbed to generate new adversarial texts. This selective perturbation
preserves the malicious intent while amplifying safety signals, thereby
increasing their potential to evade existing defenses. Our method enables a new
red-teaming strategy that balances adversarial effectiveness with safety
alignment. Experimental results demonstrate that adversarial texts generated by
SFPF can bypass state-of-the-art defense mechanisms, revealing persistent
vulnerabilities in current NLP systems.However, the method's effectiveness
varies across prompts and layers, and its generalizability to other
architectures and larger models remains to be validated.
Ссылки и действия
Дополнительные ресурсы: