Robustness Feature Adapter for Efficient Adversarial Training
2508.17680v1
cs.LG, cs.AI, cs.CV, I.2.6
2025-08-27
Авторы:
Quanwei Wu, Jun Guo, Wei Wang, Yi Wang
Резюме на русском
## Контекст
Робастность моделей глубокого обучения к атакам адверсарных примеров является ключевым аспектом в создании надежных моделей. Одним из самых эффективных методов для улучшения робастности является адверсарный тренинг (Adversarial Training, AT). Однако, при его применении к большим моделям сложности вычислений растут существенно, что делает применение AT как-то ограниченным. Более того, AT также страдает от robust overfitting, когда модель слишком адаптируется к конкретным атакам и не может генерировать общую робастность. Эта статья адресует эти проблемы, предлагая новую адаптер-базуютую модель для эффективного AT, которая работает непосредственно в пространстве признаков. Такой подход стремится улучшить качество внутреннего цикла обучения и уменьшить эффект robust overfitting, увеличив при этом общую эффективность обучения и устойчивость к новым атакам.
## Метод
Метод представляет собой adapter-based approach, который работает в пространстве признаков, а не на уровне выпуклых оптимизаций, как в стандартном AT. Адаптеры регулируют feature space для повышения точности и эффективности обучения. Особенностью нового подхода является его возможность использовать в различных бэкбоне-архитектурах без значительных изменений. Он решает проблему robust overfitting, используя adaptive feature space regulation. Это позволяет модели генерировать более устойчивую к новым атакам робастность. Для реализации этого адаптеры работают как на уровне фич, так и на уровне потоков данных, что обеспечивает более эффективную интеграцию в многослойные модели.
## Результаты
Результаты экспериментов показали, что новый подход эффективно работает в разных архитектурах, таких как ResNet и ViT. В отличии от стандартного AT, который может страдать robust overfitting, новый адаптер уменьшает этот эффект и улучшает внутреннее согласованность обучения. Эксперименты показали, что модели обладают улучшенной робастностью к новым атакам и сохраняют высокую точность на clean data. Это улучшение в робастности позволяет увеличить эффективность обучения и снизить вычислительные затраты. В различных наборах данных и сценариях атак, результаты показали, что адаптер может эффективно регулировать робастность моделей, не требуя значительных изменений в архитектуре.
## Значимость
Результаты этого исследования могут быть применены в различных областях, таких как безопасность информационных систем, медицинские приложения и финансовые модели. Из-за высокой эффективности и уменьшения robust overfitting, этот подход можно использовать для построения моделей, которые не только высоко точны, но и устойчивы к новым атакам. Такое применение может существенно повысить надежность и робастность моделей глубокого обучения в реальных сит
Abstract
Adversarial training (AT) with projected gradient descent is the most popular
method to improve model robustness under adversarial attacks. However,
computational overheads become prohibitively large when AT is applied to large
backbone models. AT is also known to have the issue of robust overfitting. This
paper contributes to solving both problems simultaneously towards building more
trustworthy foundation models. In particular, we propose a new adapter-based
approach for efficient AT directly in the feature space. We show that the
proposed adapter-based approach can improve the inner-loop convergence quality
by eliminating robust overfitting. As a result, it significantly increases
computational efficiency and improves model accuracy by generalizing
adversarial robustness to unseen attacks. We demonstrate the effectiveness of
the new adapter-based approach in different backbone architectures and in AT at
scale.