Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions

2508.03541v1 cs.RO, cs.LG 2025-08-09
Авторы:

Ergi Tushe, Bilal Farooq

Резюме на русском

## Контекст В последние годы увеличилось интерес к использованию роботов-доставщиков (Automated Delivery Robots, ADRs) в урбанизированных пространствах, чтобы улучшить удобство и эффективность доставки товаров. Однако, интеграция этих роботов в области, где существуют сильные взаимодействия с пешеходами, порождает новые проблемы в области безопасности, эффективности и социального приемлемости движения. Авторы статьи предлагают развить полную технологическую цепь для обработки видеоданных о пешеходах, включающую обнаружение, отслеживание, определение позы и оценку глубины, используя только видеокамеру. Это решение может повысить безопасность и эффективность взаимодействия ADR с пешеходами в условиях живого города. ## Метод Предложенная модель основывается на нейросетевой архитектуре, которая объединяет несколько функций: обнаружение, отслеживание, определение позы и глубины. Используется реальный датасет MOT17, содержащий видео с пешеходами в различных условиях. Авторы применяют современные методы, такие как PoseTrack и DeepSORT, для повышения точности позиционирования и отслеживания. Особое внимание уделяется оценке глубины, что позволяет роботу понять расстояние до пешеходов и их размещение в пространстве. Модель тренируется на многочисленных примерах, чтобы обеспечить высокую точность в различных сценах, включая узкие места и деформированные поля зрения. ## Результаты Эксперименты показали, что модель обеспечивает достаточно высокую точность работы в сложных условиях. Например, IDF1-метрика (идентификация пешеходов) повысилась на 10%, MOTA (общая точность отслеживания) — на 7%, а точность обнаружения осталась выше 85% даже при большом количестве пешеходов и затрудненных условиях. Робот также показал умение распознавать группы уязвимых пешеходов (например, детей или стариков), что может помочь ADR вести себя более социально ориентированно. ## Значимость Результаты этих исследований могут быть применены в развитии безопасных и социально восприятимых роботов-доставщиков, которые могут взаимодействовать с пешеходами в условиях живого города. Известно, что модель улучшает навигационную эффективность, понимает социальные предпочтения пешеходов и может реагировать на их поведение. Это влечет за собой большую безопасность и удобство во взаимодействии. ## Выводы Исследования показали, что использование видеокамеры для обнаружения, отслеживания и оценки позы пешеходов дает результаты выше среднего. Роботы с таким подходом могут реагировать на живые сцены в городе более эффективно и социально восп

Abstract

The integration of Automated Delivery Robots (ADRs) into pedestrian-heavy urban spaces introduces unique challenges in terms of safe, efficient, and socially acceptable navigation. We develop the complete pipeline for a single vision sensor based multi-pedestrian detection and tracking, pose estimation, and monocular depth perception. Leveraging the real-world MOT17 dataset sequences, this study demonstrates how integrating human-pose estimation and depth cues enhances pedestrian trajectory prediction and identity maintenance, even under occlusions and dense crowds. Results show measurable improvements, including up to a 10% increase in identity preservation (IDF1), a 7% improvement in multiobject tracking accuracy (MOTA), and consistently high detection precision exceeding 85%, even in challenging scenarios. Notably, the system identifies vulnerable pedestrian groups supporting more socially aware and inclusive robot behaviour.

Ссылки и действия