SOLAR: Switchable Output Layer for Accuracy and Robustness in Once-for-All Training

2509.16833v1 cs.LG, cs.CV 2025-09-24
Авторы:

Shaharyar Ahmed Khan Tareen, Lei Fan, Xiaojing Yuan, Qin Lin, Bin Hu

Резюме на русском

#### Контекст В последние годы появились многослойные нейронные сети, которые позволяют использовать одну и ту же архитектуру для разных задач и устройств. Этот подход, известный как Once-for-All (OFA), позволяет обучить сеть один раз (once-for-all) и сгенерировать из нее много подсетей (sub-nets), каждая из которых может быть адаптирована под конкретные потребности, например, разные экспериментальные устройства или задачи. Однако, столкнувшись с дополнительными ограничениями, такими как ограничение ресурсов (например, память и вычислительные мощности) на определенных устройствах, надо было придумать способ, который позволил бы очень просто модифицировать сеть для лучшей производительности. Это стало одним из основных мотивов для разработки нового подхода SOLAR. #### Метод SOLAR (Switchable Output Layer for Accuracy and Robustness in Once-for-All Training) — это новая методика, которая предлагает решение для улучшения качества подсетей в обучении Once-for-All (OFA). Основная идея заключается в том, чтобы каждой подсети присвоить свой собственный классификационный слой (output layer). Это позволяет выделить каждую подсеть свойственные ей характеристики, не влияя на процесс обучения общего сетевого каркаса (backbone). Эта техника позволяет увеличить точность (accuracy) и устойчивость (robustness) подсетей, особенно в тех случаях, когда сеть должна приспособиться к различным условиям работы, без изменения общей структуры сети. #### Результаты Опытные исследования были проведены на пяти различных датасетах: SVHN, CIFAR-10, STL-10, CIFAR-100 и TinyImageNet. Были использованы четыре различных архитектуры сетей: ResNet-34, WideResNet-16-8, WideResNet-40-2 и MobileNetV2. Также, были использованы два разных подхода OFA: OATS и SNNs. Результаты показали, что SOLAR выдает значительно лучшие результаты в сравнении с базовыми методами: увеличение точности до 1.26%, 4.71%, 1.67% и 1.76% на SVHN, CIFAR-10, STL-10 и CIFAR-100 соответственно, и увеличение устойчивости до 9.01%, 7.71%, 2.72% и 1.26% по соответствующим датасетам. Сравнительные тесты с другим подходом SNNs показали улучшения точности на 2.93%, 2.34% и 1.35% при использовании архитектур ResNet-34, WideResNet-16-8 и MobileNetV2, соответственно. #### Значимость SOLAR может быть применено в различных сценариях, где необходимы сети, достаточно простые и эффективные для различных деплойментных сценариев. Это может включать в себя мобильные приложения, устройства с ограниченными ресурсами и задачи с требованиями к высокой точности и устойчивости. Основные преимущества SOLAR заключаются в том, что он улучшает качество результатов без изменения основной архитектуры сети, что де

Abstract

Once-for-All (OFA) training enables a single super-net to generate multiple sub-nets tailored to diverse deployment scenarios, supporting flexible trade-offs among accuracy, robustness, and model-size without retraining. However, as the number of supported sub-nets increases, excessive parameter sharing in the backbone limits representational capacity, leading to degraded calibration and reduced overall performance. To address this, we propose SOLAR (Switchable Output Layer for Accuracy and Robustness in Once-for-All Training), a simple yet effective technique that assigns each sub-net a separate classification head. By decoupling the logit learning process across sub-nets, the Switchable Output Layer (SOL) reduces representational interference and improves optimization, without altering the shared backbone. We evaluate SOLAR on five datasets (SVHN, CIFAR-10, STL-10, CIFAR-100, and TinyImageNet) using four super-net backbones (ResNet-34, WideResNet-16-8, WideResNet-40-2, and MobileNetV2) for two OFA training frameworks (OATS and SNNs). Experiments show that SOLAR outperforms the baseline methods: compared to OATS, it improves accuracy of sub-nets up to 1.26 %, 4.71 %, 1.67 %, and 1.76 %, and robustness up to 9.01 %, 7.71 %, 2.72 %, and 1.26 % on SVHN, CIFAR-10, STL-10, and CIFAR-100, respectively. Compared to SNNs, it improves TinyImageNet accuracy by up to 2.93 %, 2.34 %, and 1.35 % using ResNet-34, WideResNet-16-8, and MobileNetV2 backbones (with 8 sub-nets), respectively.

Ссылки и действия