DepthGait: Multi-Scale Cross-Level Feature Fusion of RGB-Derived Depth and Silhouette Sequences for Robust Gait Recognition
2508.03397v1
cs.CV, cs.MM
2025-08-09
Авторы:
Xinzhu Li, Juepeng Zheng, Yikun Chen, Xudong Mao, Guanghui Yue, Wei Zhou, Chenlei Lv, Ruomei Wang, Fan Zhou, Baoquan Zhao
Резюме на русском
**Резюме**
Распознавание гештальта человека (gait recognition) является важной задачей в области зрительного распознавания, особенно для приложений в безопасности и экспертизе. Однако существующие подходы, основанные на 2D-представлениях, таких как силуэты и скелеты, часто недостаточно точны при различных углах обзора или сложных условиях съемки. В статье предлагается новый подход, DepthGait, который использует RGB-полученные глубинные карты вместе с силуэтами для улучшения точности распознавания гештальта. Глубинные карты добавляют важные трёхмерные признаки, позволяют лучше учесть различия в ширине и высоте тела в разных точках прохода. Для эффективного объединения этих двух типов данных, разработана схема многомерного и кросс-уровневого слияния. Эксперименты показали, что DepthGait достигает лидирующих результатов на известных бенчмарках, с высокой точностью распознавания, даже при низкокачественных входных данных. Это работа открывает путь к более точному и устойчивому распознаванию гештальта.
Abstract
Robust gait recognition requires highly discriminative representations, which
are closely tied to input modalities. While binary silhouettes and skeletons
have dominated recent literature, these 2D representations fall short of
capturing sufficient cues that can be exploited to handle viewpoint variations,
and capture finer and meaningful details of gait. In this paper, we introduce a
novel framework, termed DepthGait, that incorporates RGB-derived depth maps and
silhouettes for enhanced gait recognition. Specifically, apart from the 2D
silhouette representation of the human body, the proposed pipeline explicitly
estimates depth maps from a given RGB image sequence and uses them as a new
modality to capture discriminative features inherent in human locomotion. In
addition, a novel multi-scale and cross-level fusion scheme has also been
developed to bridge the modality gap between depth maps and silhouettes.
Extensive experiments on standard benchmarks demonstrate that the proposed
DepthGait achieves state-of-the-art performance compared to peer methods and
attains an impressive mean rank-1 accuracy on the challenging datasets.
Ссылки и действия
Дополнительные ресурсы: