Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation
2509.17287v1
cs.RO, cs.CV
2025-09-24
Авторы:
Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer
Резюме на русском
## Контекст
В настоящее время существуют системы визуального управления, которые позволяют роботам автономно перемещаться по заранее проделанным маршрутам. Они выполняют это с помощью сравнения текущих визуальных данных с записанными маршрутами. Однако существуют ряд ограничений при использовании стандартных кадровых камер, таких как фиксированная частота кадров (около 30-60 Гц), что приводит к подверждению системы пониженной отзывчивости. Это означает, что система не может реагировать на неожиданные изменения в окружающем пространстве в реальном времени. Было предложено использовать событийные камеры, которые работают на основе различения высвобождения электронов в сенсоре, что дает более высокую частоту данных и мощность обработки, что может решить проблему небольшой отзывчивости. Наша работа является первой попыткой создания системы визуального управления на основе событий для визуального "учить и повторять" (visual teach-and-repeat).
## Метод
Мы предлагаем преобразовать проблему сопоставления событий в видеопотоке в пространство частот с помощью фундаментальных методов математической функции Фурье. Это позволяет сравнивать визуальные потоки непосредственно в формате частоты, без необходимости использования вычислительно трудоемких операций в пространстве изображений. Мы также применяем методы сжатия, чтобы уменьшить размер потоков событий, что увеличивает скорость обработки данных. Наша архитектура управления использует бинарные расширения, чтобы улучшить точность и скорость распознавания.
## Результаты
Мы проверили нашу систему на видеосеансах с событийной камеры Prophesee EVK4 HD, которая была установлена на роботе AgileX Scout Mini. Мы провели эксперименты на путях длиной 4000+ метров, включающих и внутренние, и внешние условия. Наша система показала точность, измеренную с помощью метрики Absolute Trajectory Error (ATE), менее 24 сантиметров, что указывает на высокую точность и надежность. Мы также составили сравнительные тесты с существующими фрейм-ориентированными системами, которые показали, что наша система работает на порядок быстрее, достигая частоты обработки данных, превышающей 300 Гц.
## Значимость
Наша работа может быть применена в сферах автоматизации, включая автономные доставки, роботы-уборщики и охранные системы. Она предоставляет преимущество в скорости обработки и точности в сравнении с фрейм-ориентированными системами. Мы считаем, что наш подход может стать основой для развития более эффективных и быстрых систем управления роботами, что может повлиять на развитие робототехники в целом.
## Выводы
Мы успешно ра
Abstract
Visual teach-and-repeat navigation enables robots to autonomously traverse
previously demonstrated paths by comparing current sensory input with recorded
trajectories. However, conventional frame-based cameras fundamentally limit
system responsiveness: their fixed frame rates (typically 30-60 Hz) create
inherent latency between environmental changes and control responses. Here we
present the first event-camera-based visual teach-and-repeat system. To achieve
this, we develop a frequency-domain cross-correlation framework that transforms
the event stream matching problem into computationally efficient Fourier space
multiplications, capable of exceeding 300Hz processing rates, an order of
magnitude faster than frame-based approaches. By exploiting the binary nature
of event frames and applying image compression techniques, we further enhance
the computational speed of the cross-correlation process without sacrificing
localization accuracy. Extensive experiments using a Prophesee EVK4 HD event
camera mounted on an AgileX Scout Mini robot demonstrate successful autonomous
navigation across 4000+ meters of indoor and outdoor trajectories. Our system
achieves ATEs below 24 cm while maintaining consistent high-frequency control
updates. Our evaluations show that our approach achieves substantially higher
update rates compared to conventional frame-based systems, underscoring the
practical viability of event-based perception for real-time robotic navigation.
Ссылки и действия
Дополнительные ресурсы: