HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID
2508.05038v1
cs.CV
2025-08-09
Авторы:
Yiyang Su, Yunping Shi, Feng Liu, Xiaoming Liu
Резюме на русском
В статье предлагается новый подход к видео-основной идентификации лиц (Video-based Person ReID), названный HAMoBE (Hierarchical and Adaptive Mixture of Biometric Experts). Этот подход решает проблему неэффективного использования дискриминативных признаков в существующих системах, которые недостаточно адаптируются к различным сценариям. HAMoBE основывается на многоуровневой архитектуре, которая эмулирует человеческий перцептивный механизм, адаптивно комбинируя признаки вида, статического тела и динамической гаты. Используя предварительно обученную модель CLIP, HAMoBE извлекает и анализирует различные уровни признаков. Для динамического регулирования вклада каждого эксперта в матчинг решающая роль играет новая сеть двух входов для гатов. Эксперименты на бенчмарке MEVID показали, что HAMoBE улучшает Rank-1 accuracy на 13%, демонстрируя свою эффективность и универсальность в различных условиях.
Abstract
Recently, research interest in person re-identification (ReID) has
increasingly focused on video-based scenarios, which are essential for robust
surveillance and security in varied and dynamic environments. However, existing
video-based ReID methods often overlook the necessity of identifying and
selecting the most discriminative features from both videos in a query-gallery
pair for effective matching. To address this issue, we propose a novel
Hierarchical and Adaptive Mixture of Biometric Experts (HAMoBE) framework,
which leverages multi-layer features from a pre-trained large model (e.g.,
CLIP) and is designed to mimic human perceptual mechanisms by independently
modeling key biometric features--appearance, static body shape, and dynamic
gait--and adaptively integrating them. Specifically, HAMoBE includes two
levels: the first level extracts low-level features from multi-layer
representations provided by the frozen large model, while the second level
consists of specialized experts focusing on long-term, short-term, and temporal
features. To ensure robust matching, we introduce a new dual-input decision
gating network that dynamically adjusts the contributions of each expert based
on their relevance to the input scenarios. Extensive evaluations on benchmarks
like MEVID demonstrate that our approach yields significant performance
improvements (e.g., +13.0% Rank-1 accuracy).
Ссылки и действия
Дополнительные ресурсы: