A Surveillance Based Interactive Robot
2508.13319v1
cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.7
2025-08-21
Авторы:
Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta
Резюме на русском
## Контекст
Развитие технологий сенсорного оборудования, сетей и вычислительных мощностей позволило создавать системы управления, обеспечивающие взаимодействие человека с автоматизированными средствами. Одним из примеров таких систем является мобильный наблюдательный робот, использующий видеопоток в реальном времени и систему управления по голосовым командам. В настоящем исследовании авторы создали робот, который может охранять пространство, реагировать на речевые команды и прокладывать пути, избегая препятствий. Это сделано для улучшения удобства и эффективности мониторинга в различных сферах, включая безопасность, домашний мониторинг и индустриальное применение. Однако существуют проблемы с требованиями к производительности системы и удобством управления.
## Метод
Робот оснащён двумя компьютерами Raspberry Pi 4, работающими в паре. Один из них размещён на колесной базе для дифференциального управления и оснащён камерой, микрофоном и динамиком. Второй компьютер выполняет обработку видеопотока и распознавание объектов. Для обмена видеоданными между устройствами используется FFmpeg. Для распознавания объектов используется YOLOv3. Для реализации речевого взаимодействия использованы Python-библиотеки для распознавания речи, перевода и текстового генератора речи. Датчик Kinect предоставляет глубинные данные для распознавания препятствий. Решение основывается на открытых библиотеках, что делает его доступным для повторения и репликации.
## Результаты
На бенчмарках внутрипомещения робот достиг точности распознавания объектов в режиме реального времени на CPU, суммируя значительную часть ресурсов процессора. Он успешно распознавал речевые команды на разных языках и выполнял соответствующие действия. Также было продемонстрировано успешное распознавание объектов и препятствий с помощью RGB-D датчика. Основной результат заключается в том, что робот может эффективно выполнять мониторинг и управление в задачах безопасности и интерактивного мониторинга, применяя как программное обеспечение, так и носители хардвара, которые легко доступны.
## Значимость
Робот имеет множество приложений, включая домашний мониторинг, поиск людей в здании во время катастроф, проверку безопасности на производственных площадках и даже учёт запасов в хранилищах. Этот робот позволяет сократить время на мониторинг, улучшить точность распознавания и обеспечить безопасность в различных сферах. Здесь также можно рассмотреть дополнительные возможности, такие как интеграция с искусственным интеллектом для обнаружения ли
Abstract
We build a mobile surveillance robot that streams video in real time and
responds to speech so a user can monitor and steer it from a phone or browser.
The system uses two Raspberry Pi 4 units: a front unit on a differential drive
base with camera, mic, and speaker, and a central unit that serves the live
feed and runs perception. Video is sent with FFmpeg. Objects in the scene are
detected using YOLOv3 to support navigation and event awareness. For voice
interaction, we use Python libraries for speech recognition, multilingual
translation, and text-to-speech, so the robot can take spoken commands and read
back responses in the requested language. A Kinect RGB-D sensor provides visual
input and obstacle cues. In indoor tests the robot detects common objects at
interactive frame rates on CPU, recognises commands reliably, and translates
them to actions without manual control. The design relies on off-the-shelf
hardware and open software, making it easy to reproduce. We discuss limits and
practical extensions, including sensor fusion with ultrasonic range data, GPU
acceleration, and adding face and text recognition.