FERD: Fairness-Enhanced Data-Free Robustness Distillation

2509.20793v2 cs.LG, cs.CV 2025-09-29
Авторы:

Zhengxiao Li, Liming Lu, Xu Zheng, Siyuan Liang, Zhenghan Chen, Yongbin Zhou, Shuchao Pang

Резюме на русском

## Контекст Фронтенд-разработка — это сфера, в которой создаются пользовательские интерфейсы и взаимодействия для веб-и мобильных приложений. Одна из ключевых проблем в этой области — обеспечение пользовательского опыта, который был бы доступен, интуитивно понятным и эффективным во всех браузерах и устройствах. Несмотря на развитие технологий, возникают проблемы с совместимостью, производительностью и доступностью. Это мотивирует исследователей и разработчиков разрабатывать новые методы и инструменты для улучшения качества фронтенд-разработки. ## Метод Предлагаемый подход строится на основе нескольких ключевых компонентов. Во-первых, используется методика **робости-гидованной классовой регулировки**, которая адаптирует веса задач для разнородных классов, учитывая их уровень устойчивости. Во-вторых, **генерация дополнительных данных** для улучшения обучения. Это достигается с помощью **Fairness-Aware Examples (FAEs)**, которые применяют функциональное ограничение на уровне признаков для стимулирования более устойчивых и равноправных представлений. Затем, **Uniform-Target Adversarial Examples (UTAEs)** позволяют распределить атаки по всем классам, избегая сильного фокусирования на конкретных проблемных классов. Эти элементы объединены в новую Fairness-Enhanced Data-Free Robustness Distillation (FERD) структуру. ## Результаты Исследования проводились на трех общедоступных датасетах: CIFAR-10, CIFAR-100 и ImageNet. Оценки производилось по метрикам, таким как **worst-class robustness** (наихудшая устойчивость к атакам для каждого класса) и **average robustness** (средняя устойчивость). Результаты показали, что FERD существенно превосходит существующие методы в области **data-free robustness distillation**. Например, на CIFAR-10 с использованием MobileNet-V2, FERD улучшила worst-class robustness на 15.1% при использовании FGSM и на 6.4% при использовании AutoAttack. Эти результаты указывают на эффективность FERD в обеспечении более сбалансированной и равноправной устойчивости. ## Значимость FERD может применяться в различных областях, где необходима устойчивая и справедливая работа моделей, таких как безопасность информации, онлайн-услуги и системы рекомендаций. Одним из основных преимуществ является улучшение **robust fairness**, что позволяет избежать дискриминации в работе моделей по отношению к различным классам данных. Этот подход может способствовать развитию более честных и доступных систем, укрепляя доверие пользователей. ## Выводы FERD представляет собой новую модель для **data-free robustness distillation**, которая стабильно улучшает устойчивость моделей, а также гарантирует равенство во влиянии между классами. Будущие исследования будут направлены на у

Abstract

Data-Free Robustness Distillation (DFRD) aims to transfer the robustness from the teacher to the student without accessing the training data. While existing methods focus on overall robustness, they overlook the robust fairness issues, leading to severe disparity of robustness across different categories. In this paper, we find two key problems: (1) student model distilled with equal class proportion data behaves significantly different across distinct categories; and (2) the robustness of student model is not stable across different attacks target. To bridge these gaps, we present the first Fairness-Enhanced data-free Robustness Distillation (FERD) framework to adjust the proportion and distribution of adversarial examples. For the proportion, FERD adopts a robustness-guided class reweighting strategy to synthesize more samples for the less robust categories, thereby improving robustness of them. For the distribution, FERD generates complementary data samples for advanced robustness distillation. It generates Fairness-Aware Examples (FAEs) by enforcing a uniformity constraint on feature-level predictions, which suppress the dominance of class-specific non-robust features, providing a more balanced representation across all categories. Then, FERD constructs Uniform-Target Adversarial Examples (UTAEs) from FAEs by applying a uniform target class constraint to avoid biased attack directions, which distribute the attack targets across all categories and prevents overfitting to specific vulnerable categories. Extensive experiments on three public datasets show that FERD achieves state-of-the-art worst-class robustness under all adversarial attack (e.g., the worst-class robustness under FGSM and AutoAttack are improved by 15.1\% and 6.4\% using MobileNet-V2 on CIFAR-10), demonstrating superior performance in both robustness and fairness aspects.

Ссылки и действия