Nearest Neighbor Projection Removal Adversarial Training

2509.07673v2 cs.CV, cs.LG, 68T45 (Primary), 68T10 (Secondary), I.5.4 2025-09-11
Авторы:

Himanshu Singh, A. V. Subramanyam, Shivank Rajput, Mohan Kankanhalli

Резюме на русском

#### Контекст Deep neural networks (DNNs) показали выдающуюся производительность в задачах классификации изображений, однако остаются уязвимы к адверсарному машинному обучению. Традиционные методы укрепления обучения, такие как standard adversarial training, увеличивают общую устойчивость сетей к атакам, но часто игнорируют важный фактор — интер-классовые зависимости в пространстве признаков. Эти зависимости значительно снижают устойчивость сетей к адверсарным примерам. Наша работа посвящена исследованию этих зависимостей и использованию эффективных методов для их устранения в процессе обучения. Мы предлагаем новую архитектуру, которая активно решает проблему интер-классовой приближенности в многоклассовых классификационных задачах. #### Метод В нашей работе мы предлагаем процедуру, которая сначала определяет ближайших интер-классовых соседей для каждого примера в адверсарном и чистном пространстве признаков. Затем мы исключаем проекции примеров на эти соседние признаки, чтобы улучшить разделение классов. Для того чтобы уменьшить влияние интер-классовой приближенности, мы применяем логитс-коррекцию. Это позволяет уменьшить липшицев константу нейронных сетей и, как следствие, снизить Rademacher-сложность, что улучшает общее качество и устойчивость модели. Мы используем алгоритмы, которые могут быть интегрированы в существующие архитектуры DNN без существенных изменений. #### Результаты Мы провели эксперименты на стандартных датасетах CIFAR-10, CIFAR-100 и SVHN. Наши результаты показали, что предложенная модель демонстрирует высокую точность как в Attack-проверочных, так и в чистых условиях. Мы сравнили нашу модель с другими методами укрепления обучения, такими как TRADES и FreeAdversarialTraining. Наше решение показало себя сильно, стабильно превосходя многие конкурирующие элементы. Мы также проанализировали свойства обученных моделей, такие как Rademacher и Lipschitz-сложность, и показали, что наше решение выгодно влияет на небольшой Rademacher-сложность, что повышает устойчивость к адверсарным примерам. #### Значимость Предлагаемый подход может быть применен во многих областях, где необходима высокая устойчивость к адверсарным примерам, таких как безопасность в системах по отделению изображений в полевых условиях, системы распознавания образов в медицине, а также в системах автоматической диагностики. Наш подход имеет несколько преимуществ перед существующими методами: он не только повышает устойчивость к адверсарным примерам, но и сохраняет высокую точность в чистых условиях. Это может существенно влиять на будущие развития в области машинного обучения, по

Abstract

Deep neural networks have exhibited impressive performance in image classification tasks but remain vulnerable to adversarial examples. Standard adversarial training enhances robustness but typically fails to explicitly address inter-class feature overlap, a significant contributor to adversarial susceptibility. In this work, we introduce a novel adversarial training framework that actively mitigates inter-class proximity by projecting out inter-class dependencies from adversarial and clean samples in the feature space. Specifically, our approach first identifies the nearest inter-class neighbors for each adversarial sample and subsequently removes projections onto these neighbors to enforce stronger feature separability. Theoretically, we demonstrate that our proposed logits correction reduces the Lipschitz constant of neural networks, thereby lowering the Rademacher complexity, which directly contributes to improved generalization and robustness. Extensive experiments across standard benchmarks including CIFAR-10, CIFAR-100, and SVHN show that our method demonstrates strong performance that is competitive with leading adversarial training techniques, highlighting significant achievements in both robust and clean accuracy. Our findings reveal the importance of addressing inter-class feature proximity explicitly to bolster adversarial robustness in DNNs.

Ссылки и действия