Forward-Only Continual Learning
2509.01533v1
cs.LG, cs.CV
2025-09-05
Авторы:
Jiao Chen, Jiayi He, Fangfang Chen, Zuohong Lv, Jianhua Tang
Резюме на русском
Здесь приведено максимально подробное резюме структурированной научной статьи в формате Markdown.
# Forward-Only Continual Learning
## Контекст
Проблема **catastrophic forgetting** остается центральной задачей в области **continual learning (CL)**, особенно при использовании предварительно обученных моделей. Существующие подходы, такие как замороженные веса слоя фиксирования и тонкое тренирование небольшого числа параметров, все равно полагаются на **бэкпропаграцию** и **градиентное оптимизационное решение**. Это делает их ресурсоемкими и менее пригодными для реальных **ресурсозависимых приложений**, таких как **сенсорные центры обработки данных** и **мультимедийные системы**. Наша мотивация заключается в разработке **forward-only, gradient-free** метода CL для эффективного обновления модели с предварительным обучением.
## Метод
Мы предлагаем **FoRo** — новый CL-подход с **forward-only** и **gradient-free** оптимизацией. Основные компоненты FoRo:
1. **Простая стратегия промптинга**, вставляющая **промотпы** во входном слое модели. Эти промотпы относительно небольшие по размеру и оптимизируются с помощью **CMA-ES** (Covariance Matrix Adaptation Evolution Strategy) — метода оптимизации ключевых значений без использования градиентов.
2. **Новая механика хранения знаний**, основанная на **nonlinear random projection** и **recursive least squares**. Эта механика позволяет избежать градиентного оптимизационного цикла, необходимого для обучения с тонкими моделями.
**FoRo** не изменяет предварительно обученную модель, а хранит знания в удобных для инкрементального обновления матрицах. Это позволяет откладывать вызов больших объемов данных, уменьшая ресурсоемкость и улучшая скорость работы.
## Результаты
Мы провели эксперименты на нескольких датасетах, включая **ImageNet** и **miniImageNet**. Результаты показывают, что **FoRo** по сравнению с другими CL-методами демонстрирует:
- **Снижение average forgetting (забывания предыдущего знания)**.
- **Повышение accuracy (точности)**.
- Уменьшение **memory usage** (потребления памяти) и **run time** (времени работы модели).
В нашем подходе **FoRo** выполняет forward-only propagation, что делает его эффективным для **real-time applications**, таких как **обработка изображений** и **видеоанализ**.
## Значимость
**FoRo** может быть применен в **real-world multimedia applications**, таких как **сенсорные центры обработки данных**, **компьютерное зрение** и **реальном времени анализе видео**. Он обеспечивает:
- **Эффективность** при малом потреблении ресурсов.
- **Efficiency** в скорости работы и памяти.
- **High knowledge retention**, что позволяет продолжительно использовать модель в сценариях неограниченного знания.
Эти преимущества делают **FoRo** привлекательным для **real-time CL** в широких классах **мультимедийных** и **интеллектуальных приложений**.
## Выводы
Abstract
Catastrophic forgetting remains a central challenge in continual learning
(CL) with pre-trained models. While existing approaches typically freeze the
backbone and fine-tune a small number of parameters to mitigate forgetting,
they still rely on iterative error backpropagation and gradient-based
optimization, which can be computationally intensive and less suitable for
resource-constrained environments. To address this, we propose FoRo, a
forward-only, gradient-free continual learning method. FoRo consists of a
lightweight prompt tuning strategy and a novel knowledge encoding mechanism,
both designed without modifying the pre-trained model. Specifically, prompt
embeddings are inserted at the input layer and optimized using the Covariance
Matrix Adaptation Evolution Strategy (CMA-ES), which mitigates distribution
shifts and extracts high-quality task representations. Subsequently,
task-specific knowledge is encoded into a knowledge encoding matrix via
nonlinear random projection and recursive least squares, enabling incremental
updates to the classifier without revisiting prior data. Experiments show that
FoRo significantly reduces average forgetting and improves accuracy. Thanks to
forward-only learning, FoRo reduces memory usage and run time while maintaining
high knowledge retention across long task sequences. These results suggest that
FoRo could serve as a promising direction for exploring continual learning with
pre-trained models, especially in real-world multimedia applications where both
efficiency and effectiveness are critical.
Ссылки и действия
Дополнительные ресурсы: