FERD: Fairness-Enhanced Data-Free Robustness Distillation
2509.20793v1
cs.LG, cs.CV
2025-09-27
Авторы:
Zhengxiao Li, Liming Lu, Xu Zheng, Siyuan Liang, Zhenghan Chen, Yongbin Zhou, Shuchao Pang
Резюме на русском
## Контекст
Проблема неодинаковой устойчивости моделей к атакам по-прежнему остается одной из наиболее актуальных в области м MАСИ. Данные-бесплатные методы, такие как Data-Free Robustness Distillation (DFRD), предлагают трансфер неустойчивости с теACHER-модели на STUDENT-модель без доступа к исходным данным. Однако существующие подходы к DFRD предпочитают увеличение общей устойчивости модели, не уделяя внимания разногласиям в устойчивости для разных классов. Такая неравенство может привести к недопустимому расхождению в устойчивости между классами, что является ключевой проблемой для DFRD.
## Метод
FERD (Fairness-Enhanced Data-Free Robustness Distillation) — это новая архитектура, призванная устранить проблему неодинаковой устойчивости моделей к атакам. FERD ориентируется на проблемы с неравномерным распределением устойчивости по классам и нестабильной устойчивости в отношении вариантов атак. Два основных подхода решения: (1) **robustness-guided class reweighting**, который увеличивает пропорцию синтезированных данных для менее устойчивых классов, и (2) **Fairness-Aware Examples (FAEs) и Uniform-Target Adversarial Examples (UTAEs)**, которые распределяют атаки по всем классам и предотвращают склонность к устойчивости к определенным классам.
## Результаты
FERD был проверен на трех открытых датасетах (CIFAR-10, CIFAR-100, Tiny-ImageNet). Он показал стабильное улучшение устойчивости самых уязвимых классов по сравнению со существующими DFRD-методами. Например, на датасете CIFAR-10 с MobileNet-V2, FERD увеличил минимальную устойчивость к атаке FGSM и AutoAttack на 15.1% и 6.4% соответственно. Эти результаты демонстрируют значительное улучшение не только уровня устойчивости, но и обеспечения справедливости при распределении устойчивости по разным классам.
## Значимость
FERD может быть применен в ситуациях, где необходимо обеспечить высокую устойчивость моделей к атакам без доступа к данным, в том числе в сценариях, где классы требуют равноправия в устойчивости. Он предоставляет существенные преимущества в области обеспечения справедливости в моделях и улучшении характеристик распределения устойчивости. В будущем, FERD может быть доработан для поддержки более сложных атак и увеличения его гибкости в разных задачах.
## Выводы
FERD представляет собой первый подход к Fairness-Enhanced Data-Free Robustness Distillation, который успешно устраняет проблему неодинаковой устойчивости моделей к атакам. Он демонстрирует значительное улучшение уровня устойчивости, особенно в сравнении с существующими DFRD-методами. Будущие исследования будут направлены на улучшение FERD для поддержки более сложных атак, а также на расширение его полезности в раз
Abstract
Data-Free Robustness Distillation (DFRD) aims to transfer the robustness from
the teacher to the student without accessing the training data. While existing
methods focus on overall robustness, they overlook the robust fairness issues,
leading to severe disparity of robustness across different categories. In this
paper, we find two key problems: (1) student model distilled with equal class
proportion data behaves significantly different across distinct categories; and
(2) the robustness of student model is not stable across different attacks
target. To bridge these gaps, we present the first Fairness-Enhanced data-free
Robustness Distillation (FERD) framework to adjust the proportion and
distribution of adversarial examples. For the proportion, FERD adopts a
robustness-guided class reweighting strategy to synthesize more samples for the
less robust categories, thereby improving robustness of them. For the
distribution, FERD generates complementary data samples for advanced robustness
distillation. It generates Fairness-Aware Examples (FAEs) by enforcing a
uniformity constraint on feature-level predictions, which suppress the
dominance of class-specific non-robust features, providing a more balanced
representation across all categories. Then, FERD constructs Uniform-Target
Adversarial Examples (UTAEs) from FAEs by applying a uniform target class
constraint to avoid biased attack directions, which distribute the attack
targets across all categories and prevents overfitting to specific vulnerable
categories. Extensive experiments on three public datasets show that FERD
achieves state-of-the-art worst-class robustness under all adversarial attack
(e.g., the worst-class robustness under FGSM and AutoAttack are improved by
15.1\% and 6.4\% using MobileNet-V2 on CIFAR-10), demonstrating superior
performance in both robustness and fairness aspects.
Ссылки и действия
Дополнительные ресурсы: