Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering

2508.21773v1 cs.CV, cs.AI, cs.LG 2025-09-02

Авторы:

Nattapong Kurpukdee, Adrian G. Bors

Резюме на русском

## Контекст Нейронные сети по-прежнему сталкиваются с проблемами, связанными с нехваткой методик для непрерывного обучения в условиях слишком большого объема данных. Особенно актуален вопрос непрерывного обучения в контексте видеоданных, где необходимо учитывать как пространственные, так и временные аспекты. Традиционные методы непрерывного обучения не могут справиться с данными видео, так как не принимают во внимание специфику видеоданных. Более того, многие алгоритмы непрерывного обучения требуют знания границ задач и классов, что не всегда доступно. Мы предлагаем метод, который может справиться с этими вызовами, обеспечивая непрерывное обучение видеоданных в условиях сокрытых границ задач и недоступности классовых меток. ## Метод Мы предлагаем решение, основанное на непараметричном кластеризационном подходе, основанном на Kernel Density Estimation (KDE). Данный подход использует глубокие базисы трансформеров для извлечения видеофичей. Мы также расширяем память для запоминания новых классов динамически во время обучения. Метод также использует передачу знаний из множества предыдущих задач, чтобы облегчить обучение новой задачи. Это развитие включает в себя использование непараметрического кластеризационного метода, который позволяет учитывать характеристики трансформеров для выделения видеофичей. ## Результаты Мы проводили эксперименты на трех видеоданныхсетях: UCF101, HMDB51 и Something-to-Something V2. Мы показали, что наш подход изменяет память в зависимости от объема данных и позволяет многоклассовый классификатор обучаться в условиях нестационарных классов. Наш результат показывает, что алгоритм превосходит другие подходы к непрерывному обучению видеоданных. Мы также провели оценку того, насколько эффективно алгоритм запоминает предыдущие задачи и учитывает новые. ## Значимость Наш подход может быть применен в сценариях, где необходимо обучение модели к новым классам без предварительного знания о классах или границах задач. Он может быть применен в различных областях, таких как распознавание действий, мониторинг задач и анализ видеоданных для различных приложений. Наши результаты показывают, что данный подход может значительно повысить эффективность обучения в условиях сокрытых границ задач и неконтролируемости классов. ## Выводы Мы предлагаем новый подход к непрерывному обучению видеоданных, который не требует знания о классах или границах задач. Наш алгоритм динамически расширяет память, чтобы учитывать новые классы в процессе обучения. Мы показали, что наш подход показывает высокую эффе

Abstract

We propose a realistic scenario for the unsupervised video learning where neither task boundaries nor labels are provided when learning a succession of tasks. We also provide a non-parametric learning solution for the under-explored problem of unsupervised video continual learning. Videos represent a complex and rich spatio-temporal media information, widely used in many applications, but which have not been sufficiently explored in unsupervised continual learning. Prior studies have only focused on supervised continual learning, relying on the knowledge of labels and task boundaries, while having labeled data is costly and not practical. To address this gap, we study the unsupervised video continual learning (uVCL). uVCL raises more challenges due to the additional computational and memory requirements of processing videos when compared to images. We introduce a general benchmark experimental protocol for uVCL by considering the learning of unstructured video data categories during each task. We propose to use the Kernel Density Estimation (KDE) of deep embedded video features extracted by unsupervised video transformer networks as a non-parametric probabilistic representation of the data. We introduce a novelty detection criterion for the incoming new task data, dynamically enabling the expansion of memory clusters, aiming to capture new knowledge when learning a succession of tasks. We leverage the use of transfer learning from the previous tasks as an initial state for the knowledge transfer to the current learning task. We found that the proposed methodology substantially enhances the performance of the model when successively learning many tasks. We perform in-depth evaluations on three standard video action recognition datasets, including UCF101, HMDB51, and Something-to-Something V2, without using any labels or class boundaries.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация