Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Adversarial Scheduling
2509.23325v1
cs.LG, cs.AI, cs.CV
2025-10-01
Авторы:
Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné
Резюме на русском
## Контекст
Появление моделей предобученных на масштабных данных (pretrained models) преобразовало машинное обучение, особенно в области робастного (robust) fine-tuning (RFT). Однако существуют существенные проблемы, такие как необходимость выравнивания сложности задачи и уровня защиты от атак адверсарных примеров. Несмотря на то, что в открытом доступе доступно много не-робастных (non-robust) pretrained model, их эффективность при RFT недостаточно изучена. Это создает мотивацию для исследования условий, при которых не-робастные модели могут быть эффективно использованы в RFT.
## Метод
Мы рассматриваем робастное fine-tuning (RFT), нацеленное на достижение лучшей защиты от атак адверсарных примеров, при этом сохраняя высокую точность на родной задаче (downstream task). Методология включает эксперименты с шестью предобученными моделями и пятью различными датасетами. Основной инновацией является предложение новой техники — **Epsilon-Scheduling**, которая включает в себя гибкий график сильности токсичности (perturbation strength) во время обучения. Мы также предлагаем **expected robustness**, новую метрику, которая оценивает точность и защиту модели по мере увеличения уровня атак адверсарных примеров.
## Результаты
Исследования показали, что при попытке fine-tuning не-робастных моделей с целью достижения робастности происходит "откат" (suboptimal transfer), когда модель не может одновременно достичь высокой точности и высокого уровня робастности. Это эффект мы отметили на трудных задачах и с высоким уровнем шума в данных. Однако, применение **Epsilon-Scheduling** позволяет избежать этого проблемы, обеспечивая более гладкое и эффективное обучение. Метрика **expected robustness** показывает, что этот подход позволяет достичь более сбалансированной точности и защиты в разных условиях.
## Значимость
Результаты этой работы имеют практическое значение для области машинного обучения, где требуется робастность и точность в различных условиях. Новая методика позволяет избегать потери эффективности при переобучении с не-робастных моделей, что улучшает их эффективность в RFT. Эти технологии могут быть применены в темах, где требуется обеспечение защиты от атак адверсарных примеров, например, в области безопасности, автоматизации и дальнейших исследований в области машинного обучения.
## Выводы
Мы установили, что в Robust Fine-Tuning с не-робастных моделей может возникать "откат" в задаче фине-тюнинга, но наша новая техника **Epsilon-Scheduling** устраняет этот эффект, обеспечивая робастность и высокую точность. Мы также представили **expected robustness** как новую метрику для эффективной оценки моделей. В будущих исследованиях мы планируем применить эти методы на б
Abstract
Fine-tuning pretrained models is a standard and effective workflow in modern
machine learning. However, robust fine-tuning (RFT), which aims to
simultaneously achieve adaptation to a downstream task and robustness to
adversarial examples, remains challenging. Despite the abundance of non-robust
pretrained models in open-source repositories, their potential for RFT is less
understood. We address this knowledge gap by systematically examining RFT from
such non-robust models. Our experiments reveal that fine-tuning non-robust
models with a robust objective, even under small perturbations, can lead to
poor performance, a phenomenon that we dub \emph{suboptimal transfer}. In
challenging scenarios (eg, difficult tasks, high perturbation), the resulting
performance can be so low that it may be considered a transfer failure. We find
that fine-tuning using a robust objective impedes task adaptation at the
beginning of training and eventually prevents optimal transfer. However, we
propose a novel heuristic, \emph{Epsilon-Scheduling}, a schedule over
perturbation strength used during training that promotes optimal transfer.
Additionally, we introduce \emph{expected robustness}, a metric that captures
performance across a range of perturbations, providing a more comprehensive
evaluation of the accuracy-robustness trade-off for diverse models at test
time. Extensive experiments on a wide range of configurations (six pretrained
models and five datasets) show that \emph{Epsilon-Scheduling} successfully
prevents \emph{suboptimal transfer} and consistently improves expected
robustness.
Ссылки и действия
Дополнительные ресурсы: