HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID

2508.05038v1 cs.CV 2025-08-09
Авторы:

Yiyang Su, Yunping Shi, Feng Liu, Xiaoming Liu

Резюме на русском

В статье предлагается новый подход к видео-основной идентификации лиц (Video-based Person ReID), названный HAMoBE (Hierarchical and Adaptive Mixture of Biometric Experts). Этот подход решает проблему неэффективного использования дискриминативных признаков в существующих системах, которые недостаточно адаптируются к различным сценариям. HAMoBE основывается на многоуровневой архитектуре, которая эмулирует человеческий перцептивный механизм, адаптивно комбинируя признаки вида, статического тела и динамической гаты. Используя предварительно обученную модель CLIP, HAMoBE извлекает и анализирует различные уровни признаков. Для динамического регулирования вклада каждого эксперта в матчинг решающая роль играет новая сеть двух входов для гатов. Эксперименты на бенчмарке MEVID показали, что HAMoBE улучшает Rank-1 accuracy на 13%, демонстрируя свою эффективность и универсальность в различных условиях.

Abstract

Recently, research interest in person re-identification (ReID) has increasingly focused on video-based scenarios, which are essential for robust surveillance and security in varied and dynamic environments. However, existing video-based ReID methods often overlook the necessity of identifying and selecting the most discriminative features from both videos in a query-gallery pair for effective matching. To address this issue, we propose a novel Hierarchical and Adaptive Mixture of Biometric Experts (HAMoBE) framework, which leverages multi-layer features from a pre-trained large model (e.g., CLIP) and is designed to mimic human perceptual mechanisms by independently modeling key biometric features--appearance, static body shape, and dynamic gait--and adaptively integrating them. Specifically, HAMoBE includes two levels: the first level extracts low-level features from multi-layer representations provided by the frozen large model, while the second level consists of specialized experts focusing on long-term, short-term, and temporal features. To ensure robust matching, we introduce a new dual-input decision gating network that dynamically adjusts the contributions of each expert based on their relevance to the input scenarios. Extensive evaluations on benchmarks like MEVID demonstrate that our approach yields significant performance improvements (e.g., +13.0% Rank-1 accuracy).

Ссылки и действия