Sparse Representations Improve Adversarial Robustness of Neural Network Classifiers

2509.21130v1 cs.LG, cs.CV 2025-09-27
Авторы:

Killian Steunou, Sigurd Saue, Théo Druilhe

Резюме на русском

#### Контекст Нейронные сети показывают выдающиеся результаты в задачах классификации изображений, однако остаются значительно уязвимы к атакам, использующим адверсарные примеры. Эти примеры — маленькие, незаметные для человека изменения входных данных — могут вывести сеть с дальнейшей стороны. Одним из потенциальных способов улучшить устойчивость является использование линейных методов димениентального сокращения. Наша работа фокусируется на сравнении стандартной главной компонентной анализа (PCA) с её ужей вариантом (SPCA) в качестве компонентов функций для последующей классификации. Мы также проводим теоретический анализ, который помогает понять, почему спарсинг может улучшить устойчивость. #### Метод Мы использовали широкий спектр экспериментальных и теоретических подходов. На практике, мы сравнили PCA и SPCA в качестве функций входных данных для нейросетевых классификаторов. Опытные исследования включали в себя атаки с использованием гладких и шумных целевых моделей. Теоретический анализ охватил общий механизм, подтверждающий, что спарсинг уменьшает критическую легкость входных примеров. Мы также предложили новую математическую модель для оценки устойчивости к адверсарным примерам в системах с нелинейными слоями. Наши эксперименты проводились на нескольких открытых датасетах, включая CIFAR-10 и ImageNet. #### Результаты Наши эксперименты показали, что SPCA постоянно демонстрирует более высокую устойчивость по сравнению с PCA в ситуациях, когда атаки были сильными и цель видима (white-box) или невидима (black-box). SPCA предоставила большую устойчивость, не теряя в чистых классификационных результатах. Теоретический анализ подтвердил, что SPCA сокращает нормы операторов, что предсказывает меньшую возможность для атак. Мы также проверили, что эти преимущества сохраняются при использовании нелинейных слоев после проекции. #### Значимость Наши результаты могут быть применимы в области безопасности нейросетевых моделей. SPCA предоставляет значительные преимущества в улучшении устойчивости к адверсарным атакам, при этом сохраняя высокую точность по чистым данным. Это делает SPCA полезной для задач, где уровень безопасности критичен, например, в рамках систем автоматического управления или защиты системных ресурсов. #### Выводы Мы продемонстрировали, что спарсинг может значительно улучшить устойчивость нейросетевых моделей к адверсарным атакам. Наши теоретические результаты и экспериментальные результаты подтвердили то, что SPCA позволяет снизить риск атак, сохраняя вы

Abstract

Deep neural networks perform remarkably well on image classification tasks but remain vulnerable to carefully crafted adversarial perturbations. This work revisits linear dimensionality reduction as a simple, data-adapted defense. We empirically compare standard Principal Component Analysis (PCA) with its sparse variant (SPCA) as front-end feature extractors for downstream classifiers, and we complement these experiments with a theoretical analysis. On the theory side, we derive exact robustness certificates for linear heads applied to SPCA features: for both $\ell_\infty$ and $\ell_2$ threat models (binary and multiclass), the certified radius grows as the dual norms of $W^\top u$ shrink, where $W$ is the projection and $u$ the head weights. We further show that for general (non-linear) heads, sparsity reduces operator-norm bounds through a Lipschitz composition argument, predicting lower input sensitivity. Empirically, with a small non-linear network after the projection, SPCA consistently degrades more gracefully than PCA under strong white-box and black-box attacks while maintaining competitive clean accuracy. Taken together, the theory identifies the mechanism (sparser projections reduce adversarial leverage) and the experiments verify that this benefit persists beyond the linear setting. Our code is available at https://github.com/killian31/SPCARobustness.

Ссылки и действия