Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions
2508.03541v1
cs.RO, cs.LG
2025-08-09
Авторы:
Ergi Tushe, Bilal Farooq
Резюме на русском
## Контекст
В последние годы увеличилось интерес к использованию роботов-доставщиков (Automated Delivery Robots, ADRs) в урбанизированных пространствах, чтобы улучшить удобство и эффективность доставки товаров. Однако, интеграция этих роботов в области, где существуют сильные взаимодействия с пешеходами, порождает новые проблемы в области безопасности, эффективности и социального приемлемости движения. Авторы статьи предлагают развить полную технологическую цепь для обработки видеоданных о пешеходах, включающую обнаружение, отслеживание, определение позы и оценку глубины, используя только видеокамеру. Это решение может повысить безопасность и эффективность взаимодействия ADR с пешеходами в условиях живого города.
## Метод
Предложенная модель основывается на нейросетевой архитектуре, которая объединяет несколько функций: обнаружение, отслеживание, определение позы и глубины. Используется реальный датасет MOT17, содержащий видео с пешеходами в различных условиях. Авторы применяют современные методы, такие как PoseTrack и DeepSORT, для повышения точности позиционирования и отслеживания. Особое внимание уделяется оценке глубины, что позволяет роботу понять расстояние до пешеходов и их размещение в пространстве. Модель тренируется на многочисленных примерах, чтобы обеспечить высокую точность в различных сценах, включая узкие места и деформированные поля зрения.
## Результаты
Эксперименты показали, что модель обеспечивает достаточно высокую точность работы в сложных условиях. Например, IDF1-метрика (идентификация пешеходов) повысилась на 10%, MOTA (общая точность отслеживания) — на 7%, а точность обнаружения осталась выше 85% даже при большом количестве пешеходов и затрудненных условиях. Робот также показал умение распознавать группы уязвимых пешеходов (например, детей или стариков), что может помочь ADR вести себя более социально ориентированно.
## Значимость
Результаты этих исследований могут быть применены в развитии безопасных и социально восприятимых роботов-доставщиков, которые могут взаимодействовать с пешеходами в условиях живого города. Известно, что модель улучшает навигационную эффективность, понимает социальные предпочтения пешеходов и может реагировать на их поведение. Это влечет за собой большую безопасность и удобство во взаимодействии.
## Выводы
Исследования показали, что использование видеокамеры для обнаружения, отслеживания и оценки позы пешеходов дает результаты выше среднего. Роботы с таким подходом могут реагировать на живые сцены в городе более эффективно и социально восп
Abstract
The integration of Automated Delivery Robots (ADRs) into pedestrian-heavy
urban spaces introduces unique challenges in terms of safe, efficient, and
socially acceptable navigation. We develop the complete pipeline for a single
vision sensor based multi-pedestrian detection and tracking, pose estimation,
and monocular depth perception. Leveraging the real-world MOT17 dataset
sequences, this study demonstrates how integrating human-pose estimation and
depth cues enhances pedestrian trajectory prediction and identity maintenance,
even under occlusions and dense crowds. Results show measurable improvements,
including up to a 10% increase in identity preservation (IDF1), a 7%
improvement in multiobject tracking accuracy (MOTA), and consistently high
detection precision exceeding 85%, even in challenging scenarios. Notably, the
system identifies vulnerable pedestrian groups supporting more socially aware
and inclusive robot behaviour.
Ссылки и действия
Дополнительные ресурсы: