Sparse Representations Improve Adversarial Robustness of Neural Network Classifiers
2509.21130v1
cs.LG, cs.CV
2025-09-27
Авторы:
Killian Steunou, Sigurd Saue, Théo Druilhe
Резюме на русском
#### Контекст
Нейронные сети показывают выдающиеся результаты в задачах классификации изображений, однако остаются значительно уязвимы к атакам, использующим адверсарные примеры. Эти примеры — маленькие, незаметные для человека изменения входных данных — могут вывести сеть с дальнейшей стороны. Одним из потенциальных способов улучшить устойчивость является использование линейных методов димениентального сокращения. Наша работа фокусируется на сравнении стандартной главной компонентной анализа (PCA) с её ужей вариантом (SPCA) в качестве компонентов функций для последующей классификации. Мы также проводим теоретический анализ, который помогает понять, почему спарсинг может улучшить устойчивость.
#### Метод
Мы использовали широкий спектр экспериментальных и теоретических подходов. На практике, мы сравнили PCA и SPCA в качестве функций входных данных для нейросетевых классификаторов. Опытные исследования включали в себя атаки с использованием гладких и шумных целевых моделей. Теоретический анализ охватил общий механизм, подтверждающий, что спарсинг уменьшает критическую легкость входных примеров. Мы также предложили новую математическую модель для оценки устойчивости к адверсарным примерам в системах с нелинейными слоями. Наши эксперименты проводились на нескольких открытых датасетах, включая CIFAR-10 и ImageNet.
#### Результаты
Наши эксперименты показали, что SPCA постоянно демонстрирует более высокую устойчивость по сравнению с PCA в ситуациях, когда атаки были сильными и цель видима (white-box) или невидима (black-box). SPCA предоставила большую устойчивость, не теряя в чистых классификационных результатах. Теоретический анализ подтвердил, что SPCA сокращает нормы операторов, что предсказывает меньшую возможность для атак. Мы также проверили, что эти преимущества сохраняются при использовании нелинейных слоев после проекции.
#### Значимость
Наши результаты могут быть применимы в области безопасности нейросетевых моделей. SPCA предоставляет значительные преимущества в улучшении устойчивости к адверсарным атакам, при этом сохраняя высокую точность по чистым данным. Это делает SPCA полезной для задач, где уровень безопасности критичен, например, в рамках систем автоматического управления или защиты системных ресурсов.
#### Выводы
Мы продемонстрировали, что спарсинг может значительно улучшить устойчивость нейросетевых моделей к адверсарным атакам. Наши теоретические результаты и экспериментальные результаты подтвердили то, что SPCA позволяет снизить риск атак, сохраняя вы
Abstract
Deep neural networks perform remarkably well on image classification tasks
but remain vulnerable to carefully crafted adversarial perturbations. This work
revisits linear dimensionality reduction as a simple, data-adapted defense. We
empirically compare standard Principal Component Analysis (PCA) with its sparse
variant (SPCA) as front-end feature extractors for downstream classifiers, and
we complement these experiments with a theoretical analysis. On the theory
side, we derive exact robustness certificates for linear heads applied to SPCA
features: for both $\ell_\infty$ and $\ell_2$ threat models (binary and
multiclass), the certified radius grows as the dual norms of $W^\top u$ shrink,
where $W$ is the projection and $u$ the head weights. We further show that for
general (non-linear) heads, sparsity reduces operator-norm bounds through a
Lipschitz composition argument, predicting lower input sensitivity.
Empirically, with a small non-linear network after the projection, SPCA
consistently degrades more gracefully than PCA under strong white-box and
black-box attacks while maintaining competitive clean accuracy. Taken together,
the theory identifies the mechanism (sparser projections reduce adversarial
leverage) and the experiments verify that this benefit persists beyond the
linear setting. Our code is available at
https://github.com/killian31/SPCARobustness.
Ссылки и действия
Дополнительные ресурсы: