Nearest Neighbor Projection Removal Adversarial Training
2509.07673v2
cs.CV, cs.LG, 68T45 (Primary), 68T10 (Secondary), I.5.4
2025-09-11
Авторы:
Himanshu Singh, A. V. Subramanyam, Shivank Rajput, Mohan Kankanhalli
Резюме на русском
#### Контекст
Deep neural networks (DNNs) показали выдающуюся производительность в задачах классификации изображений, однако остаются уязвимы к адверсарному машинному обучению. Традиционные методы укрепления обучения, такие как standard adversarial training, увеличивают общую устойчивость сетей к атакам, но часто игнорируют важный фактор — интер-классовые зависимости в пространстве признаков. Эти зависимости значительно снижают устойчивость сетей к адверсарным примерам. Наша работа посвящена исследованию этих зависимостей и использованию эффективных методов для их устранения в процессе обучения. Мы предлагаем новую архитектуру, которая активно решает проблему интер-классовой приближенности в многоклассовых классификационных задачах.
#### Метод
В нашей работе мы предлагаем процедуру, которая сначала определяет ближайших интер-классовых соседей для каждого примера в адверсарном и чистном пространстве признаков. Затем мы исключаем проекции примеров на эти соседние признаки, чтобы улучшить разделение классов. Для того чтобы уменьшить влияние интер-классовой приближенности, мы применяем логитс-коррекцию. Это позволяет уменьшить липшицев константу нейронных сетей и, как следствие, снизить Rademacher-сложность, что улучшает общее качество и устойчивость модели. Мы используем алгоритмы, которые могут быть интегрированы в существующие архитектуры DNN без существенных изменений.
#### Результаты
Мы провели эксперименты на стандартных датасетах CIFAR-10, CIFAR-100 и SVHN. Наши результаты показали, что предложенная модель демонстрирует высокую точность как в Attack-проверочных, так и в чистых условиях. Мы сравнили нашу модель с другими методами укрепления обучения, такими как TRADES и FreeAdversarialTraining. Наше решение показало себя сильно, стабильно превосходя многие конкурирующие элементы. Мы также проанализировали свойства обученных моделей, такие как Rademacher и Lipschitz-сложность, и показали, что наше решение выгодно влияет на небольшой Rademacher-сложность, что повышает устойчивость к адверсарным примерам.
#### Значимость
Предлагаемый подход может быть применен во многих областях, где необходима высокая устойчивость к адверсарным примерам, таких как безопасность в системах по отделению изображений в полевых условиях, системы распознавания образов в медицине, а также в системах автоматической диагностики. Наш подход имеет несколько преимуществ перед существующими методами: он не только повышает устойчивость к адверсарным примерам, но и сохраняет высокую точность в чистых условиях. Это может существенно влиять на будущие развития в области машинного обучения, по
Abstract
Deep neural networks have exhibited impressive performance in image
classification tasks but remain vulnerable to adversarial examples. Standard
adversarial training enhances robustness but typically fails to explicitly
address inter-class feature overlap, a significant contributor to adversarial
susceptibility. In this work, we introduce a novel adversarial training
framework that actively mitigates inter-class proximity by projecting out
inter-class dependencies from adversarial and clean samples in the feature
space. Specifically, our approach first identifies the nearest inter-class
neighbors for each adversarial sample and subsequently removes projections onto
these neighbors to enforce stronger feature separability. Theoretically, we
demonstrate that our proposed logits correction reduces the Lipschitz constant
of neural networks, thereby lowering the Rademacher complexity, which directly
contributes to improved generalization and robustness. Extensive experiments
across standard benchmarks including CIFAR-10, CIFAR-100, and SVHN show that
our method demonstrates strong performance that is competitive with leading
adversarial training techniques, highlighting significant achievements in both
robust and clean accuracy. Our findings reveal the importance of addressing
inter-class feature proximity explicitly to bolster adversarial robustness in
DNNs.