Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

2509.17287v1 cs.RO, cs.CV 2025-09-24
Авторы:

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer

Резюме на русском

## Контекст В настоящее время существуют системы визуального управления, которые позволяют роботам автономно перемещаться по заранее проделанным маршрутам. Они выполняют это с помощью сравнения текущих визуальных данных с записанными маршрутами. Однако существуют ряд ограничений при использовании стандартных кадровых камер, таких как фиксированная частота кадров (около 30-60 Гц), что приводит к подверждению системы пониженной отзывчивости. Это означает, что система не может реагировать на неожиданные изменения в окружающем пространстве в реальном времени. Было предложено использовать событийные камеры, которые работают на основе различения высвобождения электронов в сенсоре, что дает более высокую частоту данных и мощность обработки, что может решить проблему небольшой отзывчивости. Наша работа является первой попыткой создания системы визуального управления на основе событий для визуального "учить и повторять" (visual teach-and-repeat). ## Метод Мы предлагаем преобразовать проблему сопоставления событий в видеопотоке в пространство частот с помощью фундаментальных методов математической функции Фурье. Это позволяет сравнивать визуальные потоки непосредственно в формате частоты, без необходимости использования вычислительно трудоемких операций в пространстве изображений. Мы также применяем методы сжатия, чтобы уменьшить размер потоков событий, что увеличивает скорость обработки данных. Наша архитектура управления использует бинарные расширения, чтобы улучшить точность и скорость распознавания. ## Результаты Мы проверили нашу систему на видеосеансах с событийной камеры Prophesee EVK4 HD, которая была установлена на роботе AgileX Scout Mini. Мы провели эксперименты на путях длиной 4000+ метров, включающих и внутренние, и внешние условия. Наша система показала точность, измеренную с помощью метрики Absolute Trajectory Error (ATE), менее 24 сантиметров, что указывает на высокую точность и надежность. Мы также составили сравнительные тесты с существующими фрейм-ориентированными системами, которые показали, что наша система работает на порядок быстрее, достигая частоты обработки данных, превышающей 300 Гц. ## Значимость Наша работа может быть применена в сферах автоматизации, включая автономные доставки, роботы-уборщики и охранные системы. Она предоставляет преимущество в скорости обработки и точности в сравнении с фрейм-ориентированными системами. Мы считаем, что наш подход может стать основой для развития более эффективных и быстрых систем управления роботами, что может повлиять на развитие робототехники в целом. ## Выводы Мы успешно ра

Abstract

Visual teach-and-repeat navigation enables robots to autonomously traverse previously demonstrated paths by comparing current sensory input with recorded trajectories. However, conventional frame-based cameras fundamentally limit system responsiveness: their fixed frame rates (typically 30-60 Hz) create inherent latency between environmental changes and control responses. Here we present the first event-camera-based visual teach-and-repeat system. To achieve this, we develop a frequency-domain cross-correlation framework that transforms the event stream matching problem into computationally efficient Fourier space multiplications, capable of exceeding 300Hz processing rates, an order of magnitude faster than frame-based approaches. By exploiting the binary nature of event frames and applying image compression techniques, we further enhance the computational speed of the cross-correlation process without sacrificing localization accuracy. Extensive experiments using a Prophesee EVK4 HD event camera mounted on an AgileX Scout Mini robot demonstrate successful autonomous navigation across 4000+ meters of indoor and outdoor trajectories. Our system achieves ATEs below 24 cm while maintaining consistent high-frequency control updates. Our evaluations show that our approach achieves substantially higher update rates compared to conventional frame-based systems, underscoring the practical viability of event-based perception for real-time robotic navigation.

Ссылки и действия