CRAM: Large-scale Video Continual Learning with Bootstrapped Compression
2508.05001v1
cs.CV, cs.LG, cs.PF
2025-08-09
Авторы:
Shivani Mall, Joao F. Henriques
Резюме на русском
**Резюме**
В статье предлагается метод CRAM (Continually Refreshed Amodal Memory) для решения проблемы внедрения нейронных сетей в среды с непрерывными потоками видеоданных. Одной из основных проблем в этой области является нехватка памяти для хранения больших объемов видеоданных, особенно при использовании методов ребуферизации. Авторы предлагают хранить не полноценные видео, а их компьютерно-визуальные коды (embeddings), что позволяет значительно снизить памятные требования. Однако проблема заключается в том, что обучение компрессора видео в режиме непрерывного обучения подвержено катастрофическому забыванию, что они решают путем обновления компрессора с помощью заархивированных версий старой модели.
Разработанная схема была протестирована на больших наборах данных EpicKitchens-100 и Kinetics-700, где авторы доказали существенное превосходство CRAM по сравнению с предыдущими подходами, особенно при ограничениях на память.
Abstract
Continual learning (CL) promises to allow neural networks to learn from
continuous streams of inputs, instead of IID (independent and identically
distributed) sampling, which requires random access to a full dataset. This
would allow for much smaller storage requirements and self-sufficiency of
deployed systems that cope with natural distribution shifts, similarly to
biological learning. We focus on video CL employing a rehearsal-based approach,
which reinforces past samples from a memory buffer. We posit that part of the
reason why practical video CL is challenging is the high memory requirements of
video, further exacerbated by long-videos and continual streams, which are at
odds with the common rehearsal-buffer size constraints. To address this, we
propose to use compressed vision, i.e. store video codes (embeddings) instead
of raw inputs, and train a video classifier by IID sampling from this rolling
buffer. Training a video compressor online (so not depending on any pre-trained
networks) means that it is also subject to catastrophic forgetting. We propose
a scheme to deal with this forgetting by refreshing video codes, which requires
careful decompression with a previous version of the network and recompression
with a new one. We name our method Continually Refreshed Amodal Memory (CRAM).
We expand current video CL benchmarks to large-scale settings, namely
EpicKitchens-100 and Kinetics-700, storing thousands of relatively long videos
in under 2 GB, and demonstrate empirically that our video CL method outperforms
prior art with a significantly reduced memory footprint.
Ссылки и действия
Дополнительные ресурсы: