Revisiting Continual Semantic Segmentation with Pre-trained Vision Models

2508.04267v1 cs.CV 2025-08-09
Авторы:

Duzhen Zhang, Yong Ren, Wei Cong, Junhao Zheng, Qiaoyi Su, Shuncheng Jia, Zhong-Zhi Li, Xuanle Zhao, Ye Bai, Feilong Chen, Qi Tian, Tielin Zhang

Резюме на русском

**Резюме** Continual Semantic Segmentation (CSS) — задача, которая предполагает постепенное обучение модели для сегментации новых классов, сохраняя накопленные знания о прошедших классах. Недавние успехи в этой области сильно зависят от применения Pre-trained Vision Models (PVMs) в качестве бэкбонов. Однако, метод Direct Fine-Tuning (DFT), где модель последовательно тренируется на новых классах, часто считается простой, но неэффективной, так как считается подверженным серьезной забываемости. В нашей работе мы доказываем, что это предположение неверно — PVMs значительно лучше запоминают прошедшие классы, чем обычно считается. Мы выяснили, что проблема забываемости в DFT возникает не из-за деградации PVM, а из-за того, что классификатор сдвигается от старых классов. Разработанное нами усовершенствование DFT* (DFT-star), включающее такие меры, как заморозка слоев PVM и классификаторов, а также предусмотрение мест для новых классов, позволяет достигать более высокой точности и эффективности по сравнению с 16 государственными методами, при этом требуя меньшего количества параметров и времени на обучение.

Abstract

Continual Semantic Segmentation (CSS) seeks to incrementally learn to segment novel classes while preserving knowledge of previously encountered ones. Recent advancements in CSS have been largely driven by the adoption of Pre-trained Vision Models (PVMs) as backbones. Among existing strategies, Direct Fine-Tuning (DFT), which sequentially fine-tunes the model across classes, remains the most straightforward approach. Prior work often regards DFT as a performance lower bound due to its presumed vulnerability to severe catastrophic forgetting, leading to the development of numerous complex mitigation techniques. However, we contend that this prevailing assumption is flawed. In this paper, we systematically revisit forgetting in DFT across two standard benchmarks, Pascal VOC 2012 and ADE20K, under eight CSS settings using two representative PVM backbones: ResNet101 and Swin-B. Through a detailed probing analysis, our findings reveal that existing methods significantly underestimate the inherent anti-forgetting capabilities of PVMs. Even under DFT, PVMs retain previously learned knowledge with minimal forgetting. Further investigation of the feature space indicates that the observed forgetting primarily arises from the classifier's drift away from the PVM, rather than from degradation of the backbone representations. Based on this insight, we propose DFT*, a simple yet effective enhancement to DFT that incorporates strategies such as freezing the PVM backbone and previously learned classifiers, as well as pre-allocating future classifiers. Extensive experiments show that DFT* consistently achieves competitive or superior performance compared to sixteen state-of-the-art CSS methods, while requiring substantially fewer trainable parameters and less training time.

Ссылки и действия