Revisiting Continual Semantic Segmentation with Pre-trained Vision Models
2508.04267v1
cs.CV
2025-08-09
Авторы:
Duzhen Zhang, Yong Ren, Wei Cong, Junhao Zheng, Qiaoyi Su, Shuncheng Jia, Zhong-Zhi Li, Xuanle Zhao, Ye Bai, Feilong Chen, Qi Tian, Tielin Zhang
Резюме на русском
**Резюме**
Continual Semantic Segmentation (CSS) — задача, которая предполагает постепенное обучение модели для сегментации новых классов, сохраняя накопленные знания о прошедших классах. Недавние успехи в этой области сильно зависят от применения Pre-trained Vision Models (PVMs) в качестве бэкбонов. Однако, метод Direct Fine-Tuning (DFT), где модель последовательно тренируется на новых классах, часто считается простой, но неэффективной, так как считается подверженным серьезной забываемости. В нашей работе мы доказываем, что это предположение неверно — PVMs значительно лучше запоминают прошедшие классы, чем обычно считается. Мы выяснили, что проблема забываемости в DFT возникает не из-за деградации PVM, а из-за того, что классификатор сдвигается от старых классов. Разработанное нами усовершенствование DFT* (DFT-star), включающее такие меры, как заморозка слоев PVM и классификаторов, а также предусмотрение мест для новых классов, позволяет достигать более высокой точности и эффективности по сравнению с 16 государственными методами, при этом требуя меньшего количества параметров и времени на обучение.
Abstract
Continual Semantic Segmentation (CSS) seeks to incrementally learn to segment
novel classes while preserving knowledge of previously encountered ones. Recent
advancements in CSS have been largely driven by the adoption of Pre-trained
Vision Models (PVMs) as backbones. Among existing strategies, Direct
Fine-Tuning (DFT), which sequentially fine-tunes the model across classes,
remains the most straightforward approach. Prior work often regards DFT as a
performance lower bound due to its presumed vulnerability to severe
catastrophic forgetting, leading to the development of numerous complex
mitigation techniques. However, we contend that this prevailing assumption is
flawed. In this paper, we systematically revisit forgetting in DFT across two
standard benchmarks, Pascal VOC 2012 and ADE20K, under eight CSS settings using
two representative PVM backbones: ResNet101 and Swin-B. Through a detailed
probing analysis, our findings reveal that existing methods significantly
underestimate the inherent anti-forgetting capabilities of PVMs. Even under
DFT, PVMs retain previously learned knowledge with minimal forgetting. Further
investigation of the feature space indicates that the observed forgetting
primarily arises from the classifier's drift away from the PVM, rather than
from degradation of the backbone representations. Based on this insight, we
propose DFT*, a simple yet effective enhancement to DFT that incorporates
strategies such as freezing the PVM backbone and previously learned
classifiers, as well as pre-allocating future classifiers. Extensive
experiments show that DFT* consistently achieves competitive or superior
performance compared to sixteen state-of-the-art CSS methods, while requiring
substantially fewer trainable parameters and less training time.
Ссылки и действия
Дополнительные ресурсы: