Sy-FAR: Symmetry-based Fair Adversarial Robustness
2509.12939v1
cs.LG, cs.AI, cs.CR, cs.CV
2025-09-18
Авторы:
Haneen Najjar, Eyal Ronen, Mahmood Sharif
Резюме на русском
## Контекст
Системы машинного обучения (ML), особенно те, что имеют критический прирост безопасности, такие как системы различения лиц, часто подвержены атакам, основанным на адверсарных примерах, включая реалистичные варианты внештатного использования. Несмотря на то, что существуют методы для усиления машинного обучения в отношении адверсарного нападения, они часто приводят к несправедливости в системе. То есть, атаки легче выполняться с определенных классов или групп, чем со стороны других. Это не только так, но в разных работах, где стремились к совершенному справедливому обращению с различными классами, показано, что достигнуть этого в реальных задачах, таких как распознавание лиц, часто невозможно. Поэтому, в нашей работе, мы основываемся на идее симметрии — то есть, атаки от класса $i$ к классу $j$ были бы такими же успешными, как и в обратном направлении. Мы считаем, что симметрия — это более достижимый подход, так как отношение схожести между классами является симметричным в большинстве случаев. Более того, мы доказываем, что симметрия между индивидами приводит к симметрии между любыми подгруппами, в отличие от других подходов к справедливости, где групповая справедливость часто недостижима.
## Метод
Мы предлагаем Sy-FAR (Symmetry-based Fair Adversarial Robustness) — новую методику для улучшения справедливости в том числе и в ситуациях, где необходимо улучшить адверсарную робастность. Метод Sy-FAR оптимизирует симметричность между классами в модели, чтобы сделать атаки менее разбирательными в отношении классов. Это достигается путем изменения функциональной формы во время обучения модели, чтобы симметричность между классами была сохранена. Мы также используем множество учитывающих классы методы для оценки эффективности нашего подхода. Наши эксперименты проводятся на пяти различных датасетах, при этом мы используем три различных модели, в том числе две различные атаки — целевые и нецелевые.
## Результаты
Исследования показали, что Sy-FAR значительно повышает справедливость в адверсарном нападении по сравнению с другими методами. Также, Sy-FAR позволяет снизить влияние угрозы, которая вызывается несправедливостью в адверсарных атаках, а также уменьшает вероятность того, что атака будет успешно выполнена на определенных классах, чем другие. Мы также обнаружили, что Sy-FAR не только улучшает справедливость в адверсарных атаках, но и уменьшает время обучения и улучшает консистентность результатов в различных экспериментах. Это делает Sy-FAR более эффективным и надежным в сравнении
Abstract
Security-critical machine-learning (ML) systems, such as face-recognition
systems, are susceptible to adversarial examples, including real-world
physically realizable attacks. Various means to boost ML's adversarial
robustness have been proposed; however, they typically induce unfair
robustness: It is often easier to attack from certain classes or groups than
from others. Several techniques have been developed to improve adversarial
robustness while seeking perfect fairness between classes. Yet, prior work has
focused on settings where security and fairness are less critical. Our insight
is that achieving perfect parity in realistic fairness-critical tasks, such as
face recognition, is often infeasible -- some classes may be highly similar,
leading to more misclassifications between them. Instead, we suggest that
seeking symmetry -- i.e., attacks from class $i$ to $j$ would be as successful
as from $j$ to $i$ -- is more tractable. Intuitively, symmetry is a desirable
because class resemblance is a symmetric relation in most domains.
Additionally, as we prove theoretically, symmetry between individuals induces
symmetry between any set of sub-groups, in contrast to other fairness notions
where group-fairness is often elusive. We develop Sy-FAR, a technique to
encourage symmetry while also optimizing adversarial robustness and extensively
evaluate it using five datasets, with three model architectures, including
against targeted and untargeted realistic attacks. The results show Sy-FAR
significantly improves fair adversarial robustness compared to state-of-the-art
methods. Moreover, we find that Sy-FAR is faster and more consistent across
runs. Notably, Sy-FAR also ameliorates another type of unfairness we discover
in this work -- target classes that adversarial examples are likely to be
classified into become significantly less vulnerable after inducing symmetry.