Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification

2508.07577v1 cs.CV, cs.LG 2025-08-13
Авторы:

Zhaorui Tan, Tan Pan, Kaizhu Huang, Weimiao Yu, Kai Yao, Chen Jiang, Qiufeng Wang, Anh Nguyen, Xin Guo, Yuan Cheng, Xi Yang

Резюме на русском

#### Контекст Виджетные трансформеры (ViTs) набирают всё большую популярность в области обработки изображений, особенно для задач классификации. Одной из ключевых компонент ViTs является Layer Normalization (LayerNorm), которая управляет динамикой слоёв модели. Однако, динамика LayerNorm при её применении в задаче переобучения (fine-tuning) под условиями ограниченного количества данных и сильных доменных переходов ещё не полностью освещена. Эта проблема становится критичной при использовании моделей в реальных сценариях, где доступ к данным ограничен, и домены между исходным и целевым сильно различаются. #### Метод Мы проводили подробный анализ динамики LayerNorm в режиме fine-tuning. Основной фокус был на изучении изменений параметров LayerNorm (LayerNorm shifts) в зависимости от объёма данных и степени доменного перехода. Мы предложили меру Fine-tuning Shift Ratio ($FSR$), которая позволяет оценивать степень представительности целевых данных. Далее, мы разработали простую, но эффективную методику, которая использует положительное значение $\lambda$, которое связано с $FSR$. Эта методика позволяет корректировать LayerNorm параметры для более точного выравнивания с представительными данными. Также, мы ввели циклическую структуру, которая улучшает процесс fine-tuning. #### Результаты Мы провёряли нашу модель на двух типах изображений: натуральных и патологических. Выполнялись эксперименты в условиях различных объёмов целевых данных и степеней доменных переходов. Мы отметили, что в случае перехода из домена исходного в целевой (OOD), $FSR$ значительно меньше, чем в случае внутридоменных (ID) переходов. Это свидетельствует о меньшей представительности целевых данных в OOD-задачах. Мы также отметили, что модели ViT, применяемые к патологическим изображениям, демонстрируют более устойчивое поведение, близкое к ID-условиям, что подтверждает их более осторожное обновление LayerNorm параметров. #### Значимость Наши результаты имеют значительное значение для практического применения ViTs в задачах классификации, особенно в условиях ограниченных данных и сильных доменных переходов. Мы продемонстрировали, что $FSR$ может служить важной подсказкой для оценки качества целевых данных. Разработанный подход может быть широко применён в оптимизации моделей для реальных сценариев, таких как медицинская диагностика и трансформация изображений. #### Выводы Мы проанализировали закрытую область динамики LayerNorm в процессе fine-tuning и предложили эффективные методы для её корректировки. Наши результаты показали, что корректировка LayerNorm может значительно улучшить производительность моделей в условиях данных с ограниченным объёмом. В будущем, мы планируем расширить

Abstract

LayerNorm is pivotal in Vision Transformers (ViTs), yet its fine-tuning dynamics under data scarcity and domain shifts remain underexplored. This paper shows that shifts in LayerNorm parameters after fine-tuning (LayerNorm shifts) are indicative of the transitions between source and target domains; its efficacy is contingent upon the degree to which the target training samples accurately represent the target domain, as quantified by our proposed Fine-tuning Shift Ratio ($FSR$). Building on this, we propose a simple yet effective rescaling mechanism using a scalar $\lambda$ that is negatively correlated to $FSR$ to align learned LayerNorm shifts with those ideal shifts achieved under fully representative data, combined with a cyclic framework that further enhances the LayerNorm fine-tuning. Extensive experiments across natural and pathological images, in both in-distribution (ID) and out-of-distribution (OOD) settings, and various target training sample regimes validate our framework. Notably, OOD tasks tend to yield lower $FSR$ and higher $\lambda$ in comparison to ID cases, especially with scarce data, indicating under-represented target training samples. Moreover, ViTFs fine-tuned on pathological data behave more like ID settings, favoring conservative LayerNorm updates. Our findings illuminate the underexplored dynamics of LayerNorm in transfer learning and provide practical strategies for LayerNorm fine-tuning.

Ссылки и действия