GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking
2508.08117v1
cs.CV, cs.AI
2025-08-13
Авторы:
Xudong Han, Pengcheng Fang, Yueying Tian, Jianhui Yu, Xiaohao Cai, Daniel Roggen, Philip Birch
Резюме на русском
## Контекст
Multi-object tracking (MOT) в монокурсных видео сталкивается с значимыми задачами, такими как рассеивание и амбигуитность глубины, что создает серьезные проблемы для традиционных методов трекинга-по-обнаружению (tracking-by-detection, TBD). Эти методы часто не учитывают геометрические свойства объектов, что приводит к неточностям в определении места и движения. Для решения этих проблем требуется новый подход, призванный включить геометрическую осмысленность и усовершенствовать механизмы связывания объектов в пространстве.
## Метод
GRASPTrack представляет собой инновационный подход к MOT, который интегрирует модели многоканального глубинного распознавания и инстансной сегментации в стандартную трубу TBD. Эта интеграция позволяет генерировать точные 3D-точечные множества из 2D-обнаружений, обеспечивая геометрическое осмысление в пространстве. Далее, эти точечные множества возводятся в 3D-воксели для возможности точного пространственного сравнения с помощью Voxel-Based 3D Intersection-over-Union (IoU). Чтобы повысить надежность отслеживания, предлагается Depth-aware Adaptive Noise Compensation, которая подстраивает процессное шум отклонений для более точного оценивания состояния. Также вводится Depth-enhanced Observation-Centric Momentum, расширяющее согласованность движения объектов из плоскости изображения на пространство 3D, чтобы улучшить подсказки для ассоциации в операциях сложных движений.
## Результаты
GRASPTrack протестирован на MOT17, MOT20 и DanceTrack, где показал высокую надежность в условиях частых рассеиваний и хитроумных движений. Метод повысил производительность отслеживания, особенно в сложных сценах, и демонстрировал свою превосходность по сравнению с современными алгоритмами. Эксперименты показали, что геометрическое осмысление и пространственное сравнение внесли значительный вклад в повышение точности и надежности отслеживания.
## Значимость
GRASPTrack может применяться в различных сферах, таких как безопасность, автоматизированные системы, анализ сложных сцен и др. Он обеспечивает более точное и надежное отслеживание, улучшает обработку в сложных сценах и подходит для решения задач, требующих высокой точности и производительности в 3D-моделировании.
## Выводы
GRASPTrack достигает значительных улучшений в MOT, используя геометрическое осмысление и пространственное сравнение. Будущие исследования будут сконцентрированы на улучшении моделей глубины, расширении многоканальных сенсоров и расширении применений в сложных реальных сценах.
Abstract
Multi-object tracking (MOT) in monocular videos is fundamentally challenged
by occlusions and depth ambiguity, issues that conventional
tracking-by-detection (TBD) methods struggle to resolve owing to a lack of
geometric awareness. To address these limitations, we introduce GRASPTrack, a
novel depth-aware MOT framework that integrates monocular depth estimation and
instance segmentation into a standard TBD pipeline to generate high-fidelity 3D
point clouds from 2D detections, thereby enabling explicit 3D geometric
reasoning. These 3D point clouds are then voxelized to enable a precise and
robust Voxel-Based 3D Intersection-over-Union (IoU) for spatial association. To
further enhance tracking robustness, our approach incorporates Depth-aware
Adaptive Noise Compensation, which dynamically adjusts the Kalman filter
process noise based on occlusion severity for more reliable state estimation.
Additionally, we propose a Depth-enhanced Observation-Centric Momentum, which
extends the motion direction consistency from the image plane into 3D space to
improve motion-based association cues, particularly for objects with complex
trajectories. Extensive experiments on the MOT17, MOT20, and DanceTrack
benchmarks demonstrate that our method achieves competitive performance,
significantly improving tracking robustness in complex scenes with frequent
occlusions and intricate motion patterns.
Ссылки и действия
Дополнительные ресурсы: