Robustifying Diffusion-Denoised Smoothing Against Covariate Shift

2509.10913v1 cs.LG, cs.CV 2025-09-17
Авторы:

Ali Hedayatnia, Mostafa Tavassolipour, Babak Nadjar Araabi, Abdol-Hossein Vahabie

Резюме на русском

#### Контекст Рандомизированная сглаживающая (randomized smoothing) является востребованным подходом для достижения сертифицированной устойчивости к атакам типа $l_2$-адверсарные погрешности. Одной из самых эффективных реализаций этого подхода является метод Diffusion Denoised Smoothing (DDS), где предобученная модель денойзера на базе диффузионного процесса используется для улучшения устойчивости. Несмотря на свои достижения, DDS страдает от недостатков, в Particular, covariate shift, который возникает из-за неточного приближения добавленного шума в процессе денойзинга. Этот фактор становится причиной потери качества сглаженного классификатора. Мы рассматриваем эту проблему и предлагаем новую архитектуру, нацеленную на ее устранение. #### Метод В нашем методе мы предлагаем использовать адверсарный функционал, направленный на улучшение результатов подхода DDS. Функционал ориентирован на точный Обучение базового классификатора для минимизации потерь, связанных со сдвигом ковариатности, внедренным моделью денойзинга. Основополагающим элементом является наше понимание влияния добавленного шума на сглаживающий процесс. Мы разработали алгоритм, который обучает базовый классификатор с учетом этого сдвига, что позволяет повысить устойчивость к $l_2$-адверсарным погрешностям. Наша архитектура включает в себя многоуровневую адаптацию модели денойзинга и базового классификатора, обеспечивая более точное соответствие реальных условий. #### Результаты Мы проверили нашу модель на трех классических бенчмарках: MNIST, CIFAR-10 и ImageNet. Использовались данные с различными уровнями шума и адверсарных погрешностей. Отчет по экспериментам показал, что наш подход существенно повышает устойчивость к $l_2$-адверсарным погрешностям, достигая новых рекордов в сертифицированной точности. В целом, мы показали, что наш метод обеспечивает более высокое качество сглаженных классификаторов по сравнению с текущими лидерами в области randomized smoothing. #### Значимость Наш метод может быть применен в сферах, где необходима устойчивость к адверсарным угрозам, таких как безопасность информационных систем, медицинский интеллектуальный анализ и автоматизация производственных процессов. Одним из основных преимуществ является устранение проблемы сдвига ковариатности, которая грандиозно повышает эффективность DDS. Наши результаты не только улучшают текущие рекорды, но и открывают новые пути для дальнейшего исследования в области сглаживания и устойчивости к адверсарным затруднениям. #### Выводы Мы представили новы

Abstract

Randomized smoothing is a well-established method for achieving certified robustness against l2-adversarial perturbations. By incorporating a denoiser before the base classifier, pretrained classifiers can be seamlessly integrated into randomized smoothing without significant performance degradation. Among existing methods, Diffusion Denoised Smoothing - where a pretrained denoising diffusion model serves as the denoiser - has produced state-of-the-art results. However, we show that employing a denoising diffusion model introduces a covariate shift via misestimation of the added noise, ultimately degrading the smoothed classifier's performance. To address this issue, we propose a novel adversarial objective function focused on the added noise of the denoising diffusion model. This approach is inspired by our understanding of the origin of the covariate shift. Our goal is to train the base classifier to ensure it is robust against the covariate shift introduced by the denoiser. Our method significantly improves certified accuracy across three standard classification benchmarks - MNIST, CIFAR-10, and ImageNet - achieving new state-of-the-art performance in l2-adversarial perturbations. Our implementation is publicly available at https://github.com/ahedayat/Robustifying-DDS-Against-Covariate-Shift

Ссылки и действия