Robustness Feature Adapter for Efficient Adversarial Training

2508.17680v1 cs.LG, cs.AI, cs.CV, I.2.6 2025-08-27
Авторы:

Quanwei Wu, Jun Guo, Wei Wang, Yi Wang

Резюме на русском

## Контекст Робастность моделей глубокого обучения к атакам адверсарных примеров является ключевым аспектом в создании надежных моделей. Одним из самых эффективных методов для улучшения робастности является адверсарный тренинг (Adversarial Training, AT). Однако, при его применении к большим моделям сложности вычислений растут существенно, что делает применение AT как-то ограниченным. Более того, AT также страдает от robust overfitting, когда модель слишком адаптируется к конкретным атакам и не может генерировать общую робастность. Эта статья адресует эти проблемы, предлагая новую адаптер-базуютую модель для эффективного AT, которая работает непосредственно в пространстве признаков. Такой подход стремится улучшить качество внутреннего цикла обучения и уменьшить эффект robust overfitting, увеличив при этом общую эффективность обучения и устойчивость к новым атакам. ## Метод Метод представляет собой adapter-based approach, который работает в пространстве признаков, а не на уровне выпуклых оптимизаций, как в стандартном AT. Адаптеры регулируют feature space для повышения точности и эффективности обучения. Особенностью нового подхода является его возможность использовать в различных бэкбоне-архитектурах без значительных изменений. Он решает проблему robust overfitting, используя adaptive feature space regulation. Это позволяет модели генерировать более устойчивую к новым атакам робастность. Для реализации этого адаптеры работают как на уровне фич, так и на уровне потоков данных, что обеспечивает более эффективную интеграцию в многослойные модели. ## Результаты Результаты экспериментов показали, что новый подход эффективно работает в разных архитектурах, таких как ResNet и ViT. В отличии от стандартного AT, который может страдать robust overfitting, новый адаптер уменьшает этот эффект и улучшает внутреннее согласованность обучения. Эксперименты показали, что модели обладают улучшенной робастностью к новым атакам и сохраняют высокую точность на clean data. Это улучшение в робастности позволяет увеличить эффективность обучения и снизить вычислительные затраты. В различных наборах данных и сценариях атак, результаты показали, что адаптер может эффективно регулировать робастность моделей, не требуя значительных изменений в архитектуре. ## Значимость Результаты этого исследования могут быть применены в различных областях, таких как безопасность информационных систем, медицинские приложения и финансовые модели. Из-за высокой эффективности и уменьшения robust overfitting, этот подход можно использовать для построения моделей, которые не только высоко точны, но и устойчивы к новым атакам. Такое применение может существенно повысить надежность и робастность моделей глубокого обучения в реальных сит

Abstract

Adversarial training (AT) with projected gradient descent is the most popular method to improve model robustness under adversarial attacks. However, computational overheads become prohibitively large when AT is applied to large backbone models. AT is also known to have the issue of robust overfitting. This paper contributes to solving both problems simultaneously towards building more trustworthy foundation models. In particular, we propose a new adapter-based approach for efficient AT directly in the feature space. We show that the proposed adapter-based approach can improve the inner-loop convergence quality by eliminating robust overfitting. As a result, it significantly increases computational efficiency and improves model accuracy by generalizing adversarial robustness to unseen attacks. We demonstrate the effectiveness of the new adapter-based approach in different backbone architectures and in AT at scale.

Ссылки и действия