## Контекст
Visual Multi-Object Tracking (MOT) является кллючевым компонентом распознавания объектов в системах робототехники. Существующие Tracking-By-Detection (TBD) методы часто опираются на 2D-признаки, такие как боксы и моделирование движения. Однако эти методы становятся нестабильными в условиях плотных целей, частых прикрываний и близких взаимодействий. Эти проблемы значительно усиливаются в средах с роботами, где требуется высокая точность и устойчивость. Хотя depth-information могла бы улучшить показатели, большинство MOT-датасетов не имеют depth-annotations, что приводит к неполному использованию этого потенциала. Наша мотивация заключается в раскрытии потенциала depth-informed trajectory refinement (refinement по движению на основе depth-information) для улучшения устойчивости и точности TBD-методов.
## Метод
Мы предлагаем DepTR-MOT, базирующийся на DETR-архитектуре и расширенный с помощью depth-information. Основные инновации: (i) Мы используем foundation model-based instance-level soft depth label supervision, чтобы улучшить depth-prediction. (ii) Мы внедрили методы для поддержания global depth consistency, используя distillation dense depth maps. Эти техники позволяют DepTR-MOT выдавать instance-level depth без дополнительных моделей и с низким ресурсоемкостью. Мы также реализуем depth-refinement в TBD-парадигму, чтобы улучшить устойчивость и решить проблемы, такие как occlusions и close-proximity.
## Результаты
Мы проверили эффективность DepTR-MOT на двух датасетах: QuadTrack и DanceTrack. На QuadTrack, где требуется устойчивость в условиях плотных целей и частых прикрываний, DepTR-MOT достиг HOTA-score 27.59. На DanceTrack, где требуется высокая точность в условиях dense-сцен, DepTR-MOT показал HOTA-score 44.47. Эти результаты продемонстрировали значительное улучшение в обходе проблем, связанных с пропусками и близкими взаимодействиями, в сравнении с другими TBD-методами.
## Значимость
Наши результаты имеют большое значение для robotic perception. DepTR-MOT может быть применен в системах с роботами, где depth-information является ключевым фактором для улучшения tracking. Высокая точность DepTR-MOT делает его привлекательным для robotic grasping, navigation и surveillance applications. Дополнительно, DepTR-MOT не требует дополнительных моделей и остается рациональным в ресурсоемкости.
## Выводы
Мы представили DepTR-MOT, новый TBD-метод, который использует depth-information для улучшения точности и устойчивости. Эксперименты показали, что DepTR-MOT эффективно работает в сложных сценах с близкими взаимодействиями и occlusions. Наша работа открывает новые возможности для depth-informed trajectory refinement в MOT. Будущие исследования будут фокусироваться на расширении applicability и улучшении scalability DepTR-MOT для объемных robotic perception tasks.