Head Anchor Enhanced Detection and Association for Crowded Pedestrian Tracking
2508.05514v1
cs.CV
2025-08-09
Авторы:
Zewei Wu, César Teixeira, Wei Ke, Zhang Xiong
Резюме на русском
Проблема: Визуальный трекинг пешеходов сталкивается с значительными вызовами при решении задач интеллектуального мониторинга, анализа поведения и интерактивных систем. Наиболее сложным является сценарий множественных пересечений пешеходов, когда трекинг лица и полного тела становится неустойчивым из-за потери признаков или ключевых частей тела.
Решение: Мы предлагаем Head Anchor Enhanced Detection and Association for Crowded Pedestrian Tracking — расширенную модель, которая использует фичи обнаружения из регрессионного и классификационных ветвей объектного детектора. Мы внедрили модель детектирования головы, менее подверженной оккультации, для более надежных опорных точек. Для моделирования движения введена итеративная модель Kalman Filtering, оптимизированная для современных моделей детекторов и включающая 3D-признаки для улучшения специальных сцен.
Основные выводы: Наши улучшения позволяют справляться с множественными пересечениями, повышая точность трекинга и устойчивость к оккультациям в задачах слежения за людьми в загруженных пространствах.
Abstract
Visual pedestrian tracking represents a promising research field, with
extensive applications in intelligent surveillance, behavior analysis, and
human-computer interaction. However, real-world applications face significant
occlusion challenges. When multiple pedestrians interact or overlap, the loss
of target features severely compromises the tracker's ability to maintain
stable trajectories. Traditional tracking methods, which typically rely on
full-body bounding box features extracted from {Re-ID} models and linear
constant-velocity motion assumptions, often struggle in severe occlusion
scenarios. To address these limitations, this work proposes an enhanced
tracking framework that leverages richer feature representations and a more
robust motion model. Specifically, the proposed method incorporates detection
features from both the regression and classification branches of an object
detector, embedding spatial and positional information directly into the
feature representations. To further mitigate occlusion challenges, a head
keypoint detection model is introduced, as the head is less prone to occlusion
compared to the full body. In terms of motion modeling, we propose an iterative
Kalman filtering approach designed to align with modern detector assumptions,
integrating 3D priors to better complete motion trajectories in complex scenes.
By combining these advancements in appearance and motion modeling, the proposed
method offers a more robust solution for multi-object tracking in crowded
environments where occlusions are prevalent.
Ссылки и действия
Дополнительные ресурсы: