Forward-Only Continual Learning

2509.01533v1 cs.LG, cs.CV 2025-09-05
Авторы:

Jiao Chen, Jiayi He, Fangfang Chen, Zuohong Lv, Jianhua Tang

Резюме на русском

Здесь приведено максимально подробное резюме структурированной научной статьи в формате Markdown. # Forward-Only Continual Learning ## Контекст Проблема **catastrophic forgetting** остается центральной задачей в области **continual learning (CL)**, особенно при использовании предварительно обученных моделей. Существующие подходы, такие как замороженные веса слоя фиксирования и тонкое тренирование небольшого числа параметров, все равно полагаются на **бэкпропаграцию** и **градиентное оптимизационное решение**. Это делает их ресурсоемкими и менее пригодными для реальных **ресурсозависимых приложений**, таких как **сенсорные центры обработки данных** и **мультимедийные системы**. Наша мотивация заключается в разработке **forward-only, gradient-free** метода CL для эффективного обновления модели с предварительным обучением. ## Метод Мы предлагаем **FoRo** — новый CL-подход с **forward-only** и **gradient-free** оптимизацией. Основные компоненты FoRo: 1. **Простая стратегия промптинга**, вставляющая **промотпы** во входном слое модели. Эти промотпы относительно небольшие по размеру и оптимизируются с помощью **CMA-ES** (Covariance Matrix Adaptation Evolution Strategy) — метода оптимизации ключевых значений без использования градиентов. 2. **Новая механика хранения знаний**, основанная на **nonlinear random projection** и **recursive least squares**. Эта механика позволяет избежать градиентного оптимизационного цикла, необходимого для обучения с тонкими моделями. **FoRo** не изменяет предварительно обученную модель, а хранит знания в удобных для инкрементального обновления матрицах. Это позволяет откладывать вызов больших объемов данных, уменьшая ресурсоемкость и улучшая скорость работы. ## Результаты Мы провели эксперименты на нескольких датасетах, включая **ImageNet** и **miniImageNet**. Результаты показывают, что **FoRo** по сравнению с другими CL-методами демонстрирует: - **Снижение average forgetting (забывания предыдущего знания)**. - **Повышение accuracy (точности)**. - Уменьшение **memory usage** (потребления памяти) и **run time** (времени работы модели). В нашем подходе **FoRo** выполняет forward-only propagation, что делает его эффективным для **real-time applications**, таких как **обработка изображений** и **видеоанализ**. ## Значимость **FoRo** может быть применен в **real-world multimedia applications**, таких как **сенсорные центры обработки данных**, **компьютерное зрение** и **реальном времени анализе видео**. Он обеспечивает: - **Эффективность** при малом потреблении ресурсов. - **Efficiency** в скорости работы и памяти. - **High knowledge retention**, что позволяет продолжительно использовать модель в сценариях неограниченного знания. Эти преимущества делают **FoRo** привлекательным для **real-time CL** в широких классах **мультимедийных** и **интеллектуальных приложений**. ## Выводы

Abstract

Catastrophic forgetting remains a central challenge in continual learning (CL) with pre-trained models. While existing approaches typically freeze the backbone and fine-tune a small number of parameters to mitigate forgetting, they still rely on iterative error backpropagation and gradient-based optimization, which can be computationally intensive and less suitable for resource-constrained environments. To address this, we propose FoRo, a forward-only, gradient-free continual learning method. FoRo consists of a lightweight prompt tuning strategy and a novel knowledge encoding mechanism, both designed without modifying the pre-trained model. Specifically, prompt embeddings are inserted at the input layer and optimized using the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which mitigates distribution shifts and extracts high-quality task representations. Subsequently, task-specific knowledge is encoded into a knowledge encoding matrix via nonlinear random projection and recursive least squares, enabling incremental updates to the classifier without revisiting prior data. Experiments show that FoRo significantly reduces average forgetting and improves accuracy. Thanks to forward-only learning, FoRo reduces memory usage and run time while maintaining high knowledge retention across long task sequences. These results suggest that FoRo could serve as a promising direction for exploring continual learning with pre-trained models, especially in real-world multimedia applications where both efficiency and effectiveness are critical.

Ссылки и действия