Robust Experts: the Effect of Adversarial Training on CNNs with Sparse Mixture-of-Experts Layers

2509.05086v1 cs.CV, cs.LG 2025-09-09
Авторы:

Svetlana Pavlitska, Haixi Fan, Konstantin Ditschuneit, J. Marius Zöllner

Резюме на русском

## Контекст Задача улучшения устойчивости конволюционных нейронных сетей (CNNs) к атакам адверсарного обучения остается значительной проблемой в области машинного обучения. Традиционные методы, такие как метод градиентной запущенности (PGD), требуют высоких вычислительных затрат и часто приводят к ухудшению качества обобщения. Однако увеличение модели capcity через использование спарсе микстов экспертов (MoE) layers может стать эффективным решением. Эти слои позволяют повысить модельную способность без увеличения затрат на процесс обработки входных данных. Наша мотивация заключается в изучении того, насколько эффективны MoE layers в решении проблемы устойчивости моделей CNN к адверсарным атакам. ## Метод Мы использовали ResNet архитектуры, обученные на CIFAR-100, для исследования влияния MoE layers на устойчивость к адверсарным атакам. Устанавливая один MoE layer в глубине модели, мы могли сократить размер сети без потери качества или увеличить модельную способность, значительно улучшив устойчивость к атакам PGD и AutoPGD. Для балансировки роутинга внутри MoE layers мы использовали switch loss. Это привело к росту специализации экспертов и созданию конкретных путей, которые являлись более устойчивыми к атакам. Экспериментируя с различными вариантами роутинга, мы убедились, что MoE layers могут быть эффективными в улучшении устойчивости, особенно при использовании заданных адверсарных техник обучения. ## Результаты Наши эксперименты показали, что внедрение одного MoE layer в глубину CNN может привести к увеличению устойчивости к атакам PGD и AutoPGD. Мы обнаружили, что switch loss способствует специализации экспертов и созданию устойчивых к атакам путей. Этот эффект позволил некоторым индивидуальным экспертам показать более высокую устойчивость, чем даже сама модель с роутингом. Эти наблюдения подтверждают, что MoE layers могут значительно улучшить устойчивость моделей CNN к адверсарным атакам, при этом не требуя больших вычислительных затрат. ## Значимость Результаты наших исследований могут быть применены в различных областях, где необходима устойчивая аналитика изображений, таких как безопасность цифровых систем, обработка изображений в сетях Интернета вещей (IoT), и сегментация изображений в медицине. Использование MoE layers дает значительные преимущества: увеличение устойчивости моделей, уменьшение вычислительных затрат, и улучшение качества модели. Это может иметь потенциал для развития современных моделей, улучшения безопасности AI-систем, и расширения моделей анализа изображений в различных приложениях. ## Выводы Мы доказали, что внедрение MoE layers в CNN может стать эффективным способо

Abstract

Robustifying convolutional neural networks (CNNs) against adversarial attacks remains challenging and often requires resource-intensive countermeasures. We explore the use of sparse mixture-of-experts (MoE) layers to improve robustness by replacing selected residual blocks or convolutional layers, thereby increasing model capacity without additional inference cost. On ResNet architectures trained on CIFAR-100, we find that inserting a single MoE layer in the deeper stages leads to consistent improvements in robustness under PGD and AutoPGD attacks when combined with adversarial training. Furthermore, we discover that when switch loss is used for balancing, it causes routing to collapse onto a small set of overused experts, thereby concentrating adversarial training on these paths and inadvertently making them more robust. As a result, some individual experts outperform the gated MoE model in robustness, suggesting that robust subpaths emerge through specialization. Our code is available at https://github.com/KASTEL-MobilityLab/robust-sparse-moes.

Ссылки и действия