DCSCR: A Class-Specific Collaborative Representation based Network for Image Set Classification

2508.12745v1 cs.CV, cs.AI 2025-08-20
Авторы:

Xizhan Gao, Wei Hu

Резюме на русском

#### Контекст Классификация изображений по наборам (Image Set Classification, ISC) является важной задачей, которая позволяет сравнивать сходство между наборами изображений разного количества и качества. Эта область набирает все большую популярность в академических и практических исследованиях. Однако, ключевыми проблемами в этой области остаются построение эффективных признаков и расчет сходства между наборами. Традиционные методы ISC опираются на работу с необработанными признаками, не учитывая важность углубленного изучения данных. Для устранения этих проблем развиваются методы с применением глубоких нейронных сетей, но они не всегда удачно адаптируют признаки при сравнении наборов, что снижает их эффективность в случае небольшого количества обучающих примеров. Для решения этой задачи предлагается совмещать принципы традиционных и глубоких подходов в инновационной системе DCSCR. #### Метод DCSCR представляет собой усовершенствованную структуру для обучения признаков и метрического обучения. Она состоит из нескольких модулей: 1. **Модуль извлечения глубоких признаков** — используется для построения локальных (frame-level) признаков каждого изображения в наборе; 2. **Модуль глобального извлечения признаков** — отвечает за объединение локальных признаков в глобальный представление для каждого набора; 3. **Модуль метрического обучения на основе CSCR** — применяет класс-специфические методы спутниковых представлений (Collaborative Representation) для вычисления метрик дистанций между наборами, используя усовершенствованную CSCR-based contrastive loss-функцию. Эта система не только извлекает глубокие признаки, но и адаптирует их в процессе сравнения, что позволяет существенно повысить точность работы в условиях небольшого количества обучающих примеров. #### Результаты Проведены эксперименты на нескольких известных коллекциях данных для ISC в среде few-shot обучения. Результаты показали, что DCSCR выполняет значительно лучше, чем многие современные методы. Он демонстрирует улучшения в метриках точности классификации и сходства наборов, что указывает на эффективность и гибкость этого подхода в задачах ISC. #### Значимость Предложенный подход имеет широкие возможности применения в сферах, требующих оперативного распознавания и сравнения изображений. Например, в области безопасности, медицины, робототехники. Он обеспечивает высокую точность, устойчивость к небольшим обучающим данным и гибкость при работе с различными наборами признаков. Это делает DCSCR одним из лучших решений для решения задач ISC в современных условиях. #### Выводы Основным достижением является разработка DCSCR, которая сочетает в себе принципы традиционных и глубоких подходов к обучению признаков и метричес

Abstract

Image set classification (ISC), which can be viewed as a task of comparing similarities between sets consisting of unordered heterogeneous images with variable quantities and qualities, has attracted growing research attention in recent years. How to learn effective feature representations and how to explore the similarities between different image sets are two key yet challenging issues in this field. However, existing traditional ISC methods classify image sets based on raw pixel features, ignoring the importance of feature learning. Existing deep ISC methods can learn deep features, but they fail to adaptively adjust the features when measuring set distances, resulting in limited performance in few-shot ISC. To address the above issues, this paper combines traditional ISC methods with deep models and proposes a novel few-shot ISC approach called Deep Class-specific Collaborative Representation (DCSCR) network to simultaneously learn the frame- and concept-level feature representations of each image set and the distance similarities between different sets. Specifically, DCSCR consists of a fully convolutional deep feature extractor module, a global feature learning module, and a class-specific collaborative representation-based metric learning module. The deep feature extractor and global feature learning modules are used to learn (local and global) frame-level feature representations, while the class-specific collaborative representation-based metric learning module is exploit to adaptively learn the concept-level feature representation of each image set and thus obtain the distance similarities between different sets by developing a new CSCR-based contrastive loss function. Extensive experiments on several well-known few-shot ISC datasets demonstrate the effectiveness of the proposed method compared with some state-of-the-art image set classification algorithms.

Ссылки и действия