DAASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples

2508.13309v1 cs.CV, cs.LG 2025-08-21
Авторы:

Abdullah Al Nomaan Nafi, Habibur Rahaman, Zafaryab Haider, Tanzim Mahfuz, Fnu Suya, Swarup Bhunia, Prabuddha Chakraborty

Резюме на русском

## Контекст Объектом исследования являются атаки на нейронные сети в белом ящике с применением норм-ограниченных примеров. Известно, что многие существующие методы генерирования таких примеров недостаточно эффективны и не соответствуют человеческому восприятию. Это приводит к проблемам в эффективности атак и человеческому восприятию. Целью данного исследования является разработка метода, который бы способствовал созданию эффективных и понятных для человека примеров, а также предоставил бы новую модель для тестирования устойчивости нейронных сетей. ## Метод Авторы предлагают DAASH — разработку мета-атаки, основанной на стратегическом сочетании нескольких норм-ограниченных методов. Метод работает в многоэтапном режиме, где каждый этап агрегирует кандидаты от нескольких базовых атак с использованием адаптивных весов. При этом применяется новая мета-функция потерь, которая динамически стимулирует соотношение между уровнем минимизации классификационной ошибки и визуальной дисторсии. Это позволяет DAASH адаптироваться к особенностям каждой стадии и оптимизировать результат. ## Результаты Для оценки эффективности DAASH проводились эксперименты на Adversarially Trained Models на синтетичных данных CIFAR-10, CIFAR-100 и ImageNet. Результаты показали, что DAASH значительно превосходит состояние технологии, измеряемой по уровню успешности атак и визуальной качеству. Так, на CIFAR-10 и CIFAR-100 DAASH демонстрирует увеличение успешности атаки до 20.63%, при этом показатели SSIM, LPIPS и FID улучшаются на 11%, 0.015 и 5.7 соответственно. Это демонстрирует лучшую совместимость с человеческим восприятием и эффективность в атаке. ## Значимость Результаты DAASH широко могут применяться в сферах тестирования устойчивости нейронных сетей, а также в разработке защитных методов. За счет использования нового подхода в генерации примеров, DAASH позволяет сократить время на разработку новых методов атаки, а также повысить уровень достоверности экспериментов. Это может стать важным инструментом для развития теоретических и практических аспектов систем безопасности. ## Выводы DAASH — первый мета-атака, который значительно улучшает качество генерируемых примеров и их эффективность в условиях адаптивных защитных методов. Будущие исследования могут направляться на расширение многоуровневой модели, а также применение данного подхода к другим задачам, таким как медицинские изображения и распознавание речи.

Abstract

Numerous techniques have been proposed for generating adversarial examples in white-box settings under strict Lp-norm constraints. However, such norm-bounded examples often fail to align well with human perception, and only recently have a few methods begun specifically exploring perceptually aligned adversarial examples. Moreover, it remains unclear whether insights from Lp-constrained attacks can be effectively leveraged to improve perceptual efficacy. In this paper, we introduce DAASH, a fully differentiable meta-attack framework that generates effective and perceptually aligned adversarial examples by strategically composing existing Lp-based attack methods. DAASH operates in a multi-stage fashion: at each stage, it aggregates candidate adversarial examples from multiple base attacks using learned, adaptive weights and propagates the result to the next stage. A novel meta-loss function guides this process by jointly minimizing misclassification loss and perceptual distortion, enabling the framework to dynamically modulate the contribution of each base attack throughout the stages. We evaluate DAASH on adversarially trained models across CIFAR-10, CIFAR-100, and ImageNet. Despite relying solely on Lp-constrained based methods, DAASH significantly outperforms state-of-the-art perceptual attacks such as AdvAD -- achieving higher attack success rates (e.g., 20.63\% improvement) and superior visual quality, as measured by SSIM, LPIPS, and FID (improvements $\approx$ of 11, 0.015, and 5.7, respectively). Furthermore, DAASH generalizes well to unseen defenses, making it a practical and strong baseline for evaluating robustness without requiring handcrafted adaptive attacks for each new defense.

Ссылки и действия