Latent Danger Zone: Distilling Unified Attention for Cross-Architecture Black-box Attacks

2509.19044v1 cs.LG, cs.CV 2025-09-25
Авторы:

Yang Li, Chenyu Wang, Tingrui Wang, Yongwei Wang, Haonan Li, Zhunga Liu, Quan Pan

Резюме на русском

#### Контекст Black-box adversarial attacks представляют собой важный вид атак на нейронные сети, где злоумышленник не имеет доступа к внутренним параметрам модели, но пытается порождать входные образы, которые приведут к ошибке работы сети. Эти атаки широко применяются в области безопасности и систем анализа уязвимостей. Однако существующие подходы сталкиваются с рядом проблем, включая зависимость от конкретных архитектур моделей, высокое число запросов для поиска успешных атак и ограниченную переносимость результатов между разными архитектурами. Мотивация для данного исследования заключается в развитии метода, который бы устранил эти ограничения, обеспечив эффективность, гибкость и универсальность в задаче black-box атак. #### Метод Методология, предлагаемая в работе, основана на использовании **latent diffusion model**, который использует квантованные представления изображений для порождения адверсарных примеров. Основной инновацией является использование **attention maps**, полученных с помощью дистилляции из двух моделей: сверточной нейронной сети (CNN) и Vision Transformer (ViT). Эти модели объединяются в **joint attention distillation** (JAD), который фокусируется на общих для обеих моделей чувствительных областях изображений. Эта стратегия позволяет генерировать адверсарные примераы, которые эффективно переносятся между различными архитектурами. Кроме того, модель работает в рамочной форме, что уменьшает число запросов и улучшает генерирование адверсарных примеров. #### Результаты Для оценки эффективности JAD проводились эксперименты на различных моделях, включая CNN и ViT. Использовались стандартные датасеты, такие как ImageNet. Результаты показали, что JAD достигает **высокой переносимости между архитектурами** и **низкого количества запросов** по сравнению с другими подходами. Анализ показал, что JAD создает адверсарные примераы, которые эффективно атакуют модели с различными архитектурами, включая CNN и Vision Transformer. Это демонстрирует универсальность метода и его высокую эффективность в сравнении с существующими подходами. #### Значимость Предложенный подход имеет значительное значение в области безопасности искусственного интеллекта. Он может применяться для **тестирования уязвимостей** нейронных сетей, **анализа безопасности** систем, **проверки защиты** моделей и **разработке новых методов защиты**. JAD предлагает **простоту и эффективность** в генерировании адверсарных примеров, что делает его привлекательным для практического применения. В будущем можно рассмотреть расширение JAD на другие типы моделей, такие как рекуррентные или графовые модели, а также его применение в других аспектах уг

Abstract

Black-box adversarial attacks remain challenging due to limited access to model internals. Existing methods often depend on specific network architectures or require numerous queries, resulting in limited cross-architecture transferability and high query costs. To address these limitations, we propose JAD, a latent diffusion model framework for black-box adversarial attacks. JAD generates adversarial examples by leveraging a latent diffusion model guided by attention maps distilled from both a convolutional neural network (CNN) and a Vision Transformer (ViT) models. By focusing on image regions that are commonly sensitive across architectures, this approach crafts adversarial perturbations that transfer effectively between different model types. This joint attention distillation strategy enables JAD to be architecture-agnostic, achieving superior attack generalization across diverse models. Moreover, the generative nature of the diffusion framework yields high adversarial sample generation efficiency by reducing reliance on iterative queries. Experiments demonstrate that JAD offers improved attack generalization, generation efficiency, and cross-architecture transferability compared to existing methods, providing a promising and effective paradigm for black-box adversarial attacks.

Ссылки и действия