Robust Experts: the Effect of Adversarial Training on CNNs with Sparse Mixture-of-Experts Layers
2509.05086v1
cs.CV, cs.LG
2025-09-09
Авторы:
Svetlana Pavlitska, Haixi Fan, Konstantin Ditschuneit, J. Marius Zöllner
Резюме на русском
## Контекст
Задача улучшения устойчивости конволюционных нейронных сетей (CNNs) к атакам адверсарного обучения остается значительной проблемой в области машинного обучения. Традиционные методы, такие как метод градиентной запущенности (PGD), требуют высоких вычислительных затрат и часто приводят к ухудшению качества обобщения. Однако увеличение модели capcity через использование спарсе микстов экспертов (MoE) layers может стать эффективным решением. Эти слои позволяют повысить модельную способность без увеличения затрат на процесс обработки входных данных. Наша мотивация заключается в изучении того, насколько эффективны MoE layers в решении проблемы устойчивости моделей CNN к адверсарным атакам.
## Метод
Мы использовали ResNet архитектуры, обученные на CIFAR-100, для исследования влияния MoE layers на устойчивость к адверсарным атакам. Устанавливая один MoE layer в глубине модели, мы могли сократить размер сети без потери качества или увеличить модельную способность, значительно улучшив устойчивость к атакам PGD и AutoPGD. Для балансировки роутинга внутри MoE layers мы использовали switch loss. Это привело к росту специализации экспертов и созданию конкретных путей, которые являлись более устойчивыми к атакам. Экспериментируя с различными вариантами роутинга, мы убедились, что MoE layers могут быть эффективными в улучшении устойчивости, особенно при использовании заданных адверсарных техник обучения.
## Результаты
Наши эксперименты показали, что внедрение одного MoE layer в глубину CNN может привести к увеличению устойчивости к атакам PGD и AutoPGD. Мы обнаружили, что switch loss способствует специализации экспертов и созданию устойчивых к атакам путей. Этот эффект позволил некоторым индивидуальным экспертам показать более высокую устойчивость, чем даже сама модель с роутингом. Эти наблюдения подтверждают, что MoE layers могут значительно улучшить устойчивость моделей CNN к адверсарным атакам, при этом не требуя больших вычислительных затрат.
## Значимость
Результаты наших исследований могут быть применены в различных областях, где необходима устойчивая аналитика изображений, таких как безопасность цифровых систем, обработка изображений в сетях Интернета вещей (IoT), и сегментация изображений в медицине. Использование MoE layers дает значительные преимущества: увеличение устойчивости моделей, уменьшение вычислительных затрат, и улучшение качества модели. Это может иметь потенциал для развития современных моделей, улучшения безопасности AI-систем, и расширения моделей анализа изображений в различных приложениях.
## Выводы
Мы доказали, что внедрение MoE layers в CNN может стать эффективным способо
Abstract
Robustifying convolutional neural networks (CNNs) against adversarial attacks
remains challenging and often requires resource-intensive countermeasures. We
explore the use of sparse mixture-of-experts (MoE) layers to improve robustness
by replacing selected residual blocks or convolutional layers, thereby
increasing model capacity without additional inference cost. On ResNet
architectures trained on CIFAR-100, we find that inserting a single MoE layer
in the deeper stages leads to consistent improvements in robustness under PGD
and AutoPGD attacks when combined with adversarial training. Furthermore, we
discover that when switch loss is used for balancing, it causes routing to
collapse onto a small set of overused experts, thereby concentrating
adversarial training on these paths and inadvertently making them more robust.
As a result, some individual experts outperform the gated MoE model in
robustness, suggesting that robust subpaths emerge through specialization. Our
code is available at https://github.com/KASTEL-MobilityLab/robust-sparse-moes.
Ссылки и действия
Дополнительные ресурсы: