DAASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples
2508.13309v1
cs.CV, cs.LG
2025-08-21
Авторы:
Abdullah Al Nomaan Nafi, Habibur Rahaman, Zafaryab Haider, Tanzim Mahfuz, Fnu Suya, Swarup Bhunia, Prabuddha Chakraborty
Резюме на русском
## Контекст
Объектом исследования являются атаки на нейронные сети в белом ящике с применением норм-ограниченных примеров. Известно, что многие существующие методы генерирования таких примеров недостаточно эффективны и не соответствуют человеческому восприятию. Это приводит к проблемам в эффективности атак и человеческому восприятию. Целью данного исследования является разработка метода, который бы способствовал созданию эффективных и понятных для человека примеров, а также предоставил бы новую модель для тестирования устойчивости нейронных сетей.
## Метод
Авторы предлагают DAASH — разработку мета-атаки, основанной на стратегическом сочетании нескольких норм-ограниченных методов. Метод работает в многоэтапном режиме, где каждый этап агрегирует кандидаты от нескольких базовых атак с использованием адаптивных весов. При этом применяется новая мета-функция потерь, которая динамически стимулирует соотношение между уровнем минимизации классификационной ошибки и визуальной дисторсии. Это позволяет DAASH адаптироваться к особенностям каждой стадии и оптимизировать результат.
## Результаты
Для оценки эффективности DAASH проводились эксперименты на Adversarially Trained Models на синтетичных данных CIFAR-10, CIFAR-100 и ImageNet. Результаты показали, что DAASH значительно превосходит состояние технологии, измеряемой по уровню успешности атак и визуальной качеству. Так, на CIFAR-10 и CIFAR-100 DAASH демонстрирует увеличение успешности атаки до 20.63%, при этом показатели SSIM, LPIPS и FID улучшаются на 11%, 0.015 и 5.7 соответственно. Это демонстрирует лучшую совместимость с человеческим восприятием и эффективность в атаке.
## Значимость
Результаты DAASH широко могут применяться в сферах тестирования устойчивости нейронных сетей, а также в разработке защитных методов. За счет использования нового подхода в генерации примеров, DAASH позволяет сократить время на разработку новых методов атаки, а также повысить уровень достоверности экспериментов. Это может стать важным инструментом для развития теоретических и практических аспектов систем безопасности.
## Выводы
DAASH — первый мета-атака, который значительно улучшает качество генерируемых примеров и их эффективность в условиях адаптивных защитных методов. Будущие исследования могут направляться на расширение многоуровневой модели, а также применение данного подхода к другим задачам, таким как медицинские изображения и распознавание речи.
Abstract
Numerous techniques have been proposed for generating adversarial examples in
white-box settings under strict Lp-norm constraints. However, such norm-bounded
examples often fail to align well with human perception, and only recently have
a few methods begun specifically exploring perceptually aligned adversarial
examples. Moreover, it remains unclear whether insights from Lp-constrained
attacks can be effectively leveraged to improve perceptual efficacy. In this
paper, we introduce DAASH, a fully differentiable meta-attack framework that
generates effective and perceptually aligned adversarial examples by
strategically composing existing Lp-based attack methods. DAASH operates in a
multi-stage fashion: at each stage, it aggregates candidate adversarial
examples from multiple base attacks using learned, adaptive weights and
propagates the result to the next stage. A novel meta-loss function guides this
process by jointly minimizing misclassification loss and perceptual distortion,
enabling the framework to dynamically modulate the contribution of each base
attack throughout the stages. We evaluate DAASH on adversarially trained models
across CIFAR-10, CIFAR-100, and ImageNet. Despite relying solely on
Lp-constrained based methods, DAASH significantly outperforms state-of-the-art
perceptual attacks such as AdvAD -- achieving higher attack success rates
(e.g., 20.63\% improvement) and superior visual quality, as measured by SSIM,
LPIPS, and FID (improvements $\approx$ of 11, 0.015, and 5.7, respectively).
Furthermore, DAASH generalizes well to unseen defenses, making it a practical
and strong baseline for evaluating robustness without requiring handcrafted
adaptive attacks for each new defense.
Ссылки и действия
Дополнительные ресурсы: