Robustifying Diffusion-Denoised Smoothing Against Covariate Shift
2509.10913v1
cs.LG, cs.CV
2025-09-17
Авторы:
Ali Hedayatnia, Mostafa Tavassolipour, Babak Nadjar Araabi, Abdol-Hossein Vahabie
Резюме на русском
#### Контекст
Рандомизированная сглаживающая (randomized smoothing) является востребованным подходом для достижения сертифицированной устойчивости к атакам типа $l_2$-адверсарные погрешности. Одной из самых эффективных реализаций этого подхода является метод Diffusion Denoised Smoothing (DDS), где предобученная модель денойзера на базе диффузионного процесса используется для улучшения устойчивости. Несмотря на свои достижения, DDS страдает от недостатков, в Particular, covariate shift, который возникает из-за неточного приближения добавленного шума в процессе денойзинга. Этот фактор становится причиной потери качества сглаженного классификатора. Мы рассматриваем эту проблему и предлагаем новую архитектуру, нацеленную на ее устранение.
#### Метод
В нашем методе мы предлагаем использовать адверсарный функционал, направленный на улучшение результатов подхода DDS. Функционал ориентирован на точный Обучение базового классификатора для минимизации потерь, связанных со сдвигом ковариатности, внедренным моделью денойзинга. Основополагающим элементом является наше понимание влияния добавленного шума на сглаживающий процесс. Мы разработали алгоритм, который обучает базовый классификатор с учетом этого сдвига, что позволяет повысить устойчивость к $l_2$-адверсарным погрешностям. Наша архитектура включает в себя многоуровневую адаптацию модели денойзинга и базового классификатора, обеспечивая более точное соответствие реальных условий.
#### Результаты
Мы проверили нашу модель на трех классических бенчмарках: MNIST, CIFAR-10 и ImageNet. Использовались данные с различными уровнями шума и адверсарных погрешностей. Отчет по экспериментам показал, что наш подход существенно повышает устойчивость к $l_2$-адверсарным погрешностям, достигая новых рекордов в сертифицированной точности. В целом, мы показали, что наш метод обеспечивает более высокое качество сглаженных классификаторов по сравнению с текущими лидерами в области randomized smoothing.
#### Значимость
Наш метод может быть применен в сферах, где необходима устойчивость к адверсарным угрозам, таких как безопасность информационных систем, медицинский интеллектуальный анализ и автоматизация производственных процессов. Одним из основных преимуществ является устранение проблемы сдвига ковариатности, которая грандиозно повышает эффективность DDS. Наши результаты не только улучшают текущие рекорды, но и открывают новые пути для дальнейшего исследования в области сглаживания и устойчивости к адверсарным затруднениям.
#### Выводы
Мы представили новы
Abstract
Randomized smoothing is a well-established method for achieving certified
robustness against l2-adversarial perturbations. By incorporating a denoiser
before the base classifier, pretrained classifiers can be seamlessly integrated
into randomized smoothing without significant performance degradation. Among
existing methods, Diffusion Denoised Smoothing - where a pretrained denoising
diffusion model serves as the denoiser - has produced state-of-the-art results.
However, we show that employing a denoising diffusion model introduces a
covariate shift via misestimation of the added noise, ultimately degrading the
smoothed classifier's performance. To address this issue, we propose a novel
adversarial objective function focused on the added noise of the denoising
diffusion model. This approach is inspired by our understanding of the origin
of the covariate shift. Our goal is to train the base classifier to ensure it
is robust against the covariate shift introduced by the denoiser. Our method
significantly improves certified accuracy across three standard classification
benchmarks - MNIST, CIFAR-10, and ImageNet - achieving new state-of-the-art
performance in l2-adversarial perturbations. Our implementation is publicly
available at
https://github.com/ahedayat/Robustifying-DDS-Against-Covariate-Shift
Ссылки и действия
Дополнительные ресурсы: