📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Nearest Neighbor Projection Removal Adversarial Training

2025-09-11

Авторы:

Himanshu Singh, A. V. Subramanyam, Shivank Rajput, Mohan Kankanhalli

#### Контекст Deep neural networks (DNNs) показали выдающуюся производительность в задачах классификации изображений, однако остаются уязвимы к адверсарному машинному обучению. Традиционные методы укрепления обучения, такие как standard adversarial training, увеличивают общую устойчивость сетей к атакам, но часто игнорируют важный фактор — интер-классовые зависимости в пространстве признаков. Эти зависимости значительно снижают устойчивость сетей к адверсарным примерам. Наша работа посвящена исследованию этих зависимостей и использованию эффективных методов для их устранения в процессе обучения. Мы предлагаем новую архитектуру, которая активно решает проблему интер-классовой приближенности в многоклассовых классификационных задачах. #### Метод В нашей работе мы предлагаем процедуру, которая сначала определяет ближайших интер-классовых соседей для каждого примера в адверсарном и чистном пространстве признаков. Затем мы исключаем проекции примеров на эти соседние признаки, чтобы улучшить разделение классов. Для того чтобы уменьшить влияние интер-классовой приближенности, мы применяем логитс-коррекцию. Это позволяет уменьшить липшицев константу нейронных сетей и, как следствие, снизить Rademacher-сложность, что улучшает общее качество и устойчивость модели. Мы используем алгоритмы, которые могут быть интегрированы в существующие архитектуры DNN без существенных изменений. #### Результаты Мы провели эксперименты на стандартных датасетах CIFAR-10, CIFAR-100 и SVHN. Наши результаты показали, что предложенная модель демонстрирует высокую точность как в Attack-проверочных, так и в чистых условиях. Мы сравнили нашу модель с другими методами укрепления обучения, такими как TRADES и FreeAdversarialTraining. Наше решение показало себя сильно, стабильно превосходя многие конкурирующие элементы. Мы также проанализировали свойства обученных моделей, такие как Rademacher и Lipschitz-сложность, и показали, что наше решение выгодно влияет на небольшой Rademacher-сложность, что повышает устойчивость к адверсарным примерам. #### Значимость Предлагаемый подход может быть применен во многих областях, где необходима высокая устойчивость к адверсарным примерам, таких как безопасность в системах по отделению изображений в полевых условиях, системы распознавания образов в медицине, а также в системах автоматической диагностики. Наш подход имеет несколько преимуществ перед существующими методами: он не только повышает устойчивость к адверсарным примерам, но и сохраняет высокую точность в чистых условиях. Это может существенно влиять на будущие развития в области машинного обучения, по

Annotation:

Deep neural networks have exhibited impressive performance in image classification tasks but remain vulnerable to adversarial examples. Standard adversarial training enhances robustness but typically fails to explicitly address inter-class feature overlap, a significant contributor to adversarial susceptibility. In this work, we introduce a novel adversarial training framework that actively mitigates inter-class proximity by projecting out inter-class dependencies from adversarial and clean samp...

ID: 2509.07673v2 cs.CV, cs.LG, 68T45 (Primary), 68T10 (Secondary), I.5.4

arXiv PDF