FERD: Fairness-Enhanced Data-Free Robustness Distillation

2509.20793v1 cs.LG, cs.CV 2025-09-27
Авторы:

Zhengxiao Li, Liming Lu, Xu Zheng, Siyuan Liang, Zhenghan Chen, Yongbin Zhou, Shuchao Pang

Резюме на русском

## Контекст Проблема неодинаковой устойчивости моделей к атакам по-прежнему остается одной из наиболее актуальных в области м MАСИ. Данные-бесплатные методы, такие как Data-Free Robustness Distillation (DFRD), предлагают трансфер неустойчивости с теACHER-модели на STUDENT-модель без доступа к исходным данным. Однако существующие подходы к DFRD предпочитают увеличение общей устойчивости модели, не уделяя внимания разногласиям в устойчивости для разных классов. Такая неравенство может привести к недопустимому расхождению в устойчивости между классами, что является ключевой проблемой для DFRD. ## Метод FERD (Fairness-Enhanced Data-Free Robustness Distillation) — это новая архитектура, призванная устранить проблему неодинаковой устойчивости моделей к атакам. FERD ориентируется на проблемы с неравномерным распределением устойчивости по классам и нестабильной устойчивости в отношении вариантов атак. Два основных подхода решения: (1) **robustness-guided class reweighting**, который увеличивает пропорцию синтезированных данных для менее устойчивых классов, и (2) **Fairness-Aware Examples (FAEs) и Uniform-Target Adversarial Examples (UTAEs)**, которые распределяют атаки по всем классам и предотвращают склонность к устойчивости к определенным классам. ## Результаты FERD был проверен на трех открытых датасетах (CIFAR-10, CIFAR-100, Tiny-ImageNet). Он показал стабильное улучшение устойчивости самых уязвимых классов по сравнению со существующими DFRD-методами. Например, на датасете CIFAR-10 с MobileNet-V2, FERD увеличил минимальную устойчивость к атаке FGSM и AutoAttack на 15.1% и 6.4% соответственно. Эти результаты демонстрируют значительное улучшение не только уровня устойчивости, но и обеспечения справедливости при распределении устойчивости по разным классам. ## Значимость FERD может быть применен в ситуациях, где необходимо обеспечить высокую устойчивость моделей к атакам без доступа к данным, в том числе в сценариях, где классы требуют равноправия в устойчивости. Он предоставляет существенные преимущества в области обеспечения справедливости в моделях и улучшении характеристик распределения устойчивости. В будущем, FERD может быть доработан для поддержки более сложных атак и увеличения его гибкости в разных задачах. ## Выводы FERD представляет собой первый подход к Fairness-Enhanced Data-Free Robustness Distillation, который успешно устраняет проблему неодинаковой устойчивости моделей к атакам. Он демонстрирует значительное улучшение уровня устойчивости, особенно в сравнении с существующими DFRD-методами. Будущие исследования будут направлены на улучшение FERD для поддержки более сложных атак, а также на расширение его полезности в раз

Abstract

Data-Free Robustness Distillation (DFRD) aims to transfer the robustness from the teacher to the student without accessing the training data. While existing methods focus on overall robustness, they overlook the robust fairness issues, leading to severe disparity of robustness across different categories. In this paper, we find two key problems: (1) student model distilled with equal class proportion data behaves significantly different across distinct categories; and (2) the robustness of student model is not stable across different attacks target. To bridge these gaps, we present the first Fairness-Enhanced data-free Robustness Distillation (FERD) framework to adjust the proportion and distribution of adversarial examples. For the proportion, FERD adopts a robustness-guided class reweighting strategy to synthesize more samples for the less robust categories, thereby improving robustness of them. For the distribution, FERD generates complementary data samples for advanced robustness distillation. It generates Fairness-Aware Examples (FAEs) by enforcing a uniformity constraint on feature-level predictions, which suppress the dominance of class-specific non-robust features, providing a more balanced representation across all categories. Then, FERD constructs Uniform-Target Adversarial Examples (UTAEs) from FAEs by applying a uniform target class constraint to avoid biased attack directions, which distribute the attack targets across all categories and prevents overfitting to specific vulnerable categories. Extensive experiments on three public datasets show that FERD achieves state-of-the-art worst-class robustness under all adversarial attack (e.g., the worst-class robustness under FGSM and AutoAttack are improved by 15.1\% and 6.4\% using MobileNet-V2 on CIFAR-10), demonstrating superior performance in both robustness and fairness aspects.

Ссылки и действия