GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking

2508.08117v1 cs.CV, cs.AI 2025-08-13

Авторы:

Xudong Han, Pengcheng Fang, Yueying Tian, Jianhui Yu, Xiaohao Cai, Daniel Roggen, Philip Birch

Резюме на русском

## Контекст Multi-object tracking (MOT) в монокурсных видео сталкивается с значимыми задачами, такими как рассеивание и амбигуитность глубины, что создает серьезные проблемы для традиционных методов трекинга-по-обнаружению (tracking-by-detection, TBD). Эти методы часто не учитывают геометрические свойства объектов, что приводит к неточностям в определении места и движения. Для решения этих проблем требуется новый подход, призванный включить геометрическую осмысленность и усовершенствовать механизмы связывания объектов в пространстве. ## Метод GRASPTrack представляет собой инновационный подход к MOT, который интегрирует модели многоканального глубинного распознавания и инстансной сегментации в стандартную трубу TBD. Эта интеграция позволяет генерировать точные 3D-точечные множества из 2D-обнаружений, обеспечивая геометрическое осмысление в пространстве. Далее, эти точечные множества возводятся в 3D-воксели для возможности точного пространственного сравнения с помощью Voxel-Based 3D Intersection-over-Union (IoU). Чтобы повысить надежность отслеживания, предлагается Depth-aware Adaptive Noise Compensation, которая подстраивает процессное шум отклонений для более точного оценивания состояния. Также вводится Depth-enhanced Observation-Centric Momentum, расширяющее согласованность движения объектов из плоскости изображения на пространство 3D, чтобы улучшить подсказки для ассоциации в операциях сложных движений. ## Результаты GRASPTrack протестирован на MOT17, MOT20 и DanceTrack, где показал высокую надежность в условиях частых рассеиваний и хитроумных движений. Метод повысил производительность отслеживания, особенно в сложных сценах, и демонстрировал свою превосходность по сравнению с современными алгоритмами. Эксперименты показали, что геометрическое осмысление и пространственное сравнение внесли значительный вклад в повышение точности и надежности отслеживания. ## Значимость GRASPTrack может применяться в различных сферах, таких как безопасность, автоматизированные системы, анализ сложных сцен и др. Он обеспечивает более точное и надежное отслеживание, улучшает обработку в сложных сценах и подходит для решения задач, требующих высокой точности и производительности в 3D-моделировании. ## Выводы GRASPTrack достигает значительных улучшений в MOT, используя геометрическое осмысление и пространственное сравнение. Будущие исследования будут сконцентрированы на улучшении моделей глубины, расширении многоканальных сенсоров и расширении применений в сложных реальных сценах.

Abstract

Multi-object tracking (MOT) in monocular videos is fundamentally challenged by occlusions and depth ambiguity, issues that conventional tracking-by-detection (TBD) methods struggle to resolve owing to a lack of geometric awareness. To address these limitations, we introduce GRASPTrack, a novel depth-aware MOT framework that integrates monocular depth estimation and instance segmentation into a standard TBD pipeline to generate high-fidelity 3D point clouds from 2D detections, thereby enabling explicit 3D geometric reasoning. These 3D point clouds are then voxelized to enable a precise and robust Voxel-Based 3D Intersection-over-Union (IoU) for spatial association. To further enhance tracking robustness, our approach incorporates Depth-aware Adaptive Noise Compensation, which dynamically adjusts the Kalman filter process noise based on occlusion severity for more reliable state estimation. Additionally, we propose a Depth-enhanced Observation-Centric Momentum, which extends the motion direction consistency from the image plane into 3D space to improve motion-based association cues, particularly for objects with complex trajectories. Extensive experiments on the MOT17, MOT20, and DanceTrack benchmarks demonstrate that our method achieves competitive performance, significantly improving tracking robustness in complex scenes with frequent occlusions and intricate motion patterns.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация