Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering
2508.21773v1
cs.CV, cs.AI, cs.LG
2025-09-02
Авторы:
Nattapong Kurpukdee, Adrian G. Bors
Резюме на русском
## Контекст
Нейронные сети по-прежнему сталкиваются с проблемами, связанными с нехваткой методик для непрерывного обучения в условиях слишком большого объема данных. Особенно актуален вопрос непрерывного обучения в контексте видеоданных, где необходимо учитывать как пространственные, так и временные аспекты. Традиционные методы непрерывного обучения не могут справиться с данными видео, так как не принимают во внимание специфику видеоданных. Более того, многие алгоритмы непрерывного обучения требуют знания границ задач и классов, что не всегда доступно. Мы предлагаем метод, который может справиться с этими вызовами, обеспечивая непрерывное обучение видеоданных в условиях сокрытых границ задач и недоступности классовых меток.
## Метод
Мы предлагаем решение, основанное на непараметричном кластеризационном подходе, основанном на Kernel Density Estimation (KDE). Данный подход использует глубокие базисы трансформеров для извлечения видеофичей. Мы также расширяем память для запоминания новых классов динамически во время обучения. Метод также использует передачу знаний из множества предыдущих задач, чтобы облегчить обучение новой задачи. Это развитие включает в себя использование непараметрического кластеризационного метода, который позволяет учитывать характеристики трансформеров для выделения видеофичей.
## Результаты
Мы проводили эксперименты на трех видеоданныхсетях: UCF101, HMDB51 и Something-to-Something V2. Мы показали, что наш подход изменяет память в зависимости от объема данных и позволяет многоклассовый классификатор обучаться в условиях нестационарных классов. Наш результат показывает, что алгоритм превосходит другие подходы к непрерывному обучению видеоданных. Мы также провели оценку того, насколько эффективно алгоритм запоминает предыдущие задачи и учитывает новые.
## Значимость
Наш подход может быть применен в сценариях, где необходимо обучение модели к новым классам без предварительного знания о классах или границах задач. Он может быть применен в различных областях, таких как распознавание действий, мониторинг задач и анализ видеоданных для различных приложений. Наши результаты показывают, что данный подход может значительно повысить эффективность обучения в условиях сокрытых границ задач и неконтролируемости классов.
## Выводы
Мы предлагаем новый подход к непрерывному обучению видеоданных, который не требует знания о классах или границах задач. Наш алгоритм динамически расширяет память, чтобы учитывать новые классы в процессе обучения. Мы показали, что наш подход показывает высокую эффе
Abstract
We propose a realistic scenario for the unsupervised video learning where
neither task boundaries nor labels are provided when learning a succession of
tasks. We also provide a non-parametric learning solution for the
under-explored problem of unsupervised video continual learning. Videos
represent a complex and rich spatio-temporal media information, widely used in
many applications, but which have not been sufficiently explored in
unsupervised continual learning. Prior studies have only focused on supervised
continual learning, relying on the knowledge of labels and task boundaries,
while having labeled data is costly and not practical. To address this gap, we
study the unsupervised video continual learning (uVCL). uVCL raises more
challenges due to the additional computational and memory requirements of
processing videos when compared to images. We introduce a general benchmark
experimental protocol for uVCL by considering the learning of unstructured
video data categories during each task. We propose to use the Kernel Density
Estimation (KDE) of deep embedded video features extracted by unsupervised
video transformer networks as a non-parametric probabilistic representation of
the data. We introduce a novelty detection criterion for the incoming new task
data, dynamically enabling the expansion of memory clusters, aiming to capture
new knowledge when learning a succession of tasks. We leverage the use of
transfer learning from the previous tasks as an initial state for the knowledge
transfer to the current learning task. We found that the proposed methodology
substantially enhances the performance of the model when successively learning
many tasks. We perform in-depth evaluations on three standard video action
recognition datasets, including UCF101, HMDB51, and Something-to-Something V2,
without using any labels or class boundaries.
Ссылки и действия
Дополнительные ресурсы: