Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
2508.04227v1
cs.CV, cs.LG
2025-08-09
Авторы:
Yuyang Liu, Qiuhe Hong, Linlan Huang, Alexandra Gomez-Villa, Dipam Goswami, Xialei Liu, Joost van de Weijer, Yonghong Tian
Резюме на русском
Vision-language models (VLMs), основываясь на больших предварительно обученных моделях, достигли впечатляющих результатов в различных мультимодальных задачах. Однако их применение к непрерывному обучению с нестационарными данными остается сложной проблемой. Несмотря на успех в простых классических задачах непрерывного обучения, VLMs сталкиваются с уникальными проблемами: значительным забвением (forgetting) во время обучения, ухудшением параметров взаимодействия составных модалей, а также снижением возможностей нулевого-шотного обучения. Данное исследование представляет повсеместную и систематичную обзорную работу по непрерывному обучению VLMs (VLM-CL). Также предлагается категоризировать подходы к решению: (1) повторное использование мультимодальных данных, (2) регуляризационные методы, поддерживающие модальные связи, и (3) эффективные методы адаптации параметров. Обзор также проводит анализ текущих протоколов оценки, датасетов и метрик, и это подчеркивает необходимость создания новых бенчмарков, которые могут лучше отразить ограничения VLMs в направлении квалитивного непрерывного обучения.
Abstract
Vision-language models (VLMs) have achieved impressive performance across
diverse multimodal tasks by leveraging large-scale pre-training. However,
enabling them to learn continually from non-stationary data remains a major
challenge, as their cross-modal alignment and generalization capabilities are
particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal
continual learning (CL), VLMs face unique challenges such as cross-modal
feature drift, parameter interference due to shared architectures, and
zero-shot capability erosion. This survey offers the first focused and
systematic review of continual learning for VLMs (VLM-CL). We begin by
identifying the three core failure modes that degrade performance in VLM-CL.
Based on these, we propose a challenge-driven taxonomy that maps solutions to
their target problems: (1) \textit{Multi-Modal Replay Strategies} address
cross-modal drift through explicit or implicit memory mechanisms; (2)
\textit{Cross-Modal Regularization} preserves modality alignment during
updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter
interference with modular or low-rank updates. We further analyze current
evaluation protocols, datasets, and metrics, highlighting the need for better
benchmarks that capture VLM-specific forgetting and compositional
generalization. Finally, we outline open problems and future directions,
including continual pre-training and compositional zero-shot learning. This
survey aims to serve as a comprehensive and diagnostic reference for
researchers developing lifelong vision-language systems. All resources are
available at:
https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models.
Ссылки и действия
Дополнительные ресурсы: