A Surveillance Based Interactive Robot

2508.13319v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.7 2025-08-21
Авторы:

Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta

Резюме на русском

## Контекст Развитие технологий сенсорного оборудования, сетей и вычислительных мощностей позволило создавать системы управления, обеспечивающие взаимодействие человека с автоматизированными средствами. Одним из примеров таких систем является мобильный наблюдательный робот, использующий видеопоток в реальном времени и систему управления по голосовым командам. В настоящем исследовании авторы создали робот, который может охранять пространство, реагировать на речевые команды и прокладывать пути, избегая препятствий. Это сделано для улучшения удобства и эффективности мониторинга в различных сферах, включая безопасность, домашний мониторинг и индустриальное применение. Однако существуют проблемы с требованиями к производительности системы и удобством управления. ## Метод Робот оснащён двумя компьютерами Raspberry Pi 4, работающими в паре. Один из них размещён на колесной базе для дифференциального управления и оснащён камерой, микрофоном и динамиком. Второй компьютер выполняет обработку видеопотока и распознавание объектов. Для обмена видеоданными между устройствами используется FFmpeg. Для распознавания объектов используется YOLOv3. Для реализации речевого взаимодействия использованы Python-библиотеки для распознавания речи, перевода и текстового генератора речи. Датчик Kinect предоставляет глубинные данные для распознавания препятствий. Решение основывается на открытых библиотеках, что делает его доступным для повторения и репликации. ## Результаты На бенчмарках внутрипомещения робот достиг точности распознавания объектов в режиме реального времени на CPU, суммируя значительную часть ресурсов процессора. Он успешно распознавал речевые команды на разных языках и выполнял соответствующие действия. Также было продемонстрировано успешное распознавание объектов и препятствий с помощью RGB-D датчика. Основной результат заключается в том, что робот может эффективно выполнять мониторинг и управление в задачах безопасности и интерактивного мониторинга, применяя как программное обеспечение, так и носители хардвара, которые легко доступны. ## Значимость Робот имеет множество приложений, включая домашний мониторинг, поиск людей в здании во время катастроф, проверку безопасности на производственных площадках и даже учёт запасов в хранилищах. Этот робот позволяет сократить время на мониторинг, улучшить точность распознавания и обеспечить безопасность в различных сферах. Здесь также можно рассмотреть дополнительные возможности, такие как интеграция с искусственным интеллектом для обнаружения ли

Abstract

We build a mobile surveillance robot that streams video in real time and responds to speech so a user can monitor and steer it from a phone or browser. The system uses two Raspberry Pi 4 units: a front unit on a differential drive base with camera, mic, and speaker, and a central unit that serves the live feed and runs perception. Video is sent with FFmpeg. Objects in the scene are detected using YOLOv3 to support navigation and event awareness. For voice interaction, we use Python libraries for speech recognition, multilingual translation, and text-to-speech, so the robot can take spoken commands and read back responses in the requested language. A Kinect RGB-D sensor provides visual input and obstacle cues. In indoor tests the robot detects common objects at interactive frame rates on CPU, recognises commands reliably, and translates them to actions without manual control. The design relies on off-the-shelf hardware and open software, making it easy to reproduce. We discuss limits and practical extensions, including sensor fusion with ultrasonic range data, GPU acceleration, and adding face and text recognition.

Ссылки и действия