DepTR-MOT: Unveiling the Potential of Depth-Informed Trajectory Refinement for Multi-Object Tracking

2509.17323v1 cs.CV, cs.RO, eess.IV 2025-09-24
Авторы:

Buyin Deng, Lingxin Huang, Kai Luo, Fei Teng, Kailun Yang

Резюме на русском

## Контекст Visual Multi-Object Tracking (MOT) является кллючевым компонентом распознавания объектов в системах робототехники. Существующие Tracking-By-Detection (TBD) методы часто опираются на 2D-признаки, такие как боксы и моделирование движения. Однако эти методы становятся нестабильными в условиях плотных целей, частых прикрываний и близких взаимодействий. Эти проблемы значительно усиливаются в средах с роботами, где требуется высокая точность и устойчивость. Хотя depth-information могла бы улучшить показатели, большинство MOT-датасетов не имеют depth-annotations, что приводит к неполному использованию этого потенциала. Наша мотивация заключается в раскрытии потенциала depth-informed trajectory refinement (refinement по движению на основе depth-information) для улучшения устойчивости и точности TBD-методов. ## Метод Мы предлагаем DepTR-MOT, базирующийся на DETR-архитектуре и расширенный с помощью depth-information. Основные инновации: (i) Мы используем foundation model-based instance-level soft depth label supervision, чтобы улучшить depth-prediction. (ii) Мы внедрили методы для поддержания global depth consistency, используя distillation dense depth maps. Эти техники позволяют DepTR-MOT выдавать instance-level depth без дополнительных моделей и с низким ресурсоемкостью. Мы также реализуем depth-refinement в TBD-парадигму, чтобы улучшить устойчивость и решить проблемы, такие как occlusions и close-proximity. ## Результаты Мы проверили эффективность DepTR-MOT на двух датасетах: QuadTrack и DanceTrack. На QuadTrack, где требуется устойчивость в условиях плотных целей и частых прикрываний, DepTR-MOT достиг HOTA-score 27.59. На DanceTrack, где требуется высокая точность в условиях dense-сцен, DepTR-MOT показал HOTA-score 44.47. Эти результаты продемонстрировали значительное улучшение в обходе проблем, связанных с пропусками и близкими взаимодействиями, в сравнении с другими TBD-методами. ## Значимость Наши результаты имеют большое значение для robotic perception. DepTR-MOT может быть применен в системах с роботами, где depth-information является ключевым фактором для улучшения tracking. Высокая точность DepTR-MOT делает его привлекательным для robotic grasping, navigation и surveillance applications. Дополнительно, DepTR-MOT не требует дополнительных моделей и остается рациональным в ресурсоемкости. ## Выводы Мы представили DepTR-MOT, новый TBD-метод, который использует depth-information для улучшения точности и устойчивости. Эксперименты показали, что DepTR-MOT эффективно работает в сложных сценах с близкими взаимодействиями и occlusions. Наша работа открывает новые возможности для depth-informed trajectory refinement в MOT. Будущие исследования будут фокусироваться на расширении applicability и улучшении scalability DepTR-MOT для объемных robotic perception tasks.

Abstract

Visual Multi-Object Tracking (MOT) is a crucial component of robotic perception, yet existing Tracking-By-Detection (TBD) methods often rely on 2D cues, such as bounding boxes and motion modeling, which struggle under occlusions and close-proximity interactions. Trackers relying on these 2D cues are particularly unreliable in robotic environments, where dense targets and frequent occlusions are common. While depth information has the potential to alleviate these issues, most existing MOT datasets lack depth annotations, leading to its underexploited role in the domain. To unveil the potential of depth-informed trajectory refinement, we introduce DepTR-MOT, a DETR-based detector enhanced with instance-level depth information. Specifically, we propose two key innovations: (i) foundation model-based instance-level soft depth label supervision, which refines depth prediction, and (ii) the distillation of dense depth maps to maintain global depth consistency. These strategies enable DepTR-MOT to output instance-level depth during inference, without requiring foundation models and without additional computational cost. By incorporating depth cues, our method enhances the robustness of the TBD paradigm, effectively resolving occlusion and close-proximity challenges. Experiments on both the QuadTrack and DanceTrack datasets demonstrate the effectiveness of our approach, achieving HOTA scores of 27.59 and 44.47, respectively. In particular, results on QuadTrack, a robotic platform MOT dataset, highlight the advantages of our method in handling occlusion and close-proximity challenges in robotic tracking. The source code will be made publicly available at https://github.com/warriordby/DepTR-MOT.

Ссылки и действия

Связанные статьи

Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction

## Контекст Проблема реконструкции динамических людей вместе с статическими сценами из монокурсорных видео остается слож...

2025-09-25

L2M-Reg: Building-level Uncertainty-aware Registration of Outdoor LiDAR Point Cl...

## Контекст Область исследования заключается в автоматизированных технологиях для создания урбанистических цифровых двой...

2025-09-24

CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for...

#### Контекст Коллаборативное восприятие (collaborative perception) — это методика, нацеленная на расширение покрытия д...

2025-09-24

Efficient and Accurate Downfacing Visual Inertial Odometry

#### Контекст Visual Inertial Odometry (VIO) является одной из самых распространенных компьютерно-визуальных технологий,...

2025-09-16