Ensemble-Based Event Camera Place Recognition Under Varying Illumination

2509.01968v1 cs.CV, cs.RO 2025-09-05

Авторы:

Therese Joseph, Tobias Fischer, Michael Milford

Резюме на русском

#### Контекст Область визуального распознавания мест (Visual Place Recognition, VPR) играет ключевую роль в автономных системах навигации, позволяя роботам ориентироваться в различных средах. Однако существующие системы чувствительны к изменениям освещённости, что приводит к понижению точности распознавания. Особенно затруднительными для существующих VPR-систем являются переходы между различными условиями освещения, такими как день и ночь. Конвекциональные камеры способны захватывать информацию с низкой частотой кадров и с ограниченным динамическим диапазоном, что приводит к потере деталей при сильно изменяющейся освещённости. В отличие от них, **event cameras** предлагают высокую динамическую диапазон и низкую задержку, что делает их более устойчивыми к быстро изменяющимся условиям освещения и кинематическим помехам. Однако установить их полный потенциал в VPR, особенно при сильных изменениях освещения, остаётся нерешённой задачей. #### Метод Мы предлагаем **ensemble-based approach** для VPR с использованием **event cameras**, который объединяет результаты из нескольких моделей распознавания. Метод включает в себя: 1. **Sequence-matched reconstructions**: Мы используем различные методы построения кадров из событий (event-to-frame), чтобы обрабатывать различные условия освещения. 2. **VPR feature extractors**: Для каждого построенного кадра мы используем различные функции, которые извлекают признаки для распознавания мест. 3. **Temporal resolution**: Мы анализируем несколько уровней разрешения времени, чтобы учитывать как мгновенные, так и длительные изменения освещения. В отличие от предыдущих ensemble-based методов, которые ограничиваются только уровнём времени, наш подход объединяет результаты из нескольких моделей, что даёт более точные и устойчивые результаты. #### Результаты Мы проводили эксперименты на двух длительных датасетах, покрывающих 8 км каждый, с детальным анализом ключевых дизайн-вопросов, таких как: - **Binning strategies**: Мы сравнили различные стратегии бининга событий. - **Polarity handling**: Мы проверили, как положительные и отрицательные событий влияют на результаты. - **Reconstruction methods**: Мы сравнили различные методы построения кадров из событий. - **Feature extractors**: Мы исследовали различные модели, которые извлекают признаки для распознавания мест. Наши результаты показывают, что наш подход достиг **57% relative improvement in Recall@1** при переходе из дня в ночь, что демонстрирует его устойчивость к изменениям освещения. #### Значимость Наш подход может быть применён в многих областях, включая автономную навигацию, системы поиска и спасения, а также системы мониторинга и анализа видео. Особым преимуществом является устойчивость к сильным изменениям освещения, что делает его идеальным

Abstract

Compared to conventional cameras, event cameras provide a high dynamic range and low latency, offering greater robustness to rapid motion and challenging lighting conditions. Although the potential of event cameras for visual place recognition (VPR) has been established, developing robust VPR frameworks under severe illumination changes remains an open research problem. In this paper, we introduce an ensemble-based approach to event camera place recognition that combines sequence-matched results from multiple event-to-frame reconstructions, VPR feature extractors, and temporal resolutions. Unlike previous event-based ensemble methods, which only utilise temporal resolution, our broader fusion strategy delivers significantly improved robustness under varied lighting conditions (e.g., afternoon, sunset, night), achieving a 57% relative improvement in Recall@1 across day-night transitions. We evaluate our approach on two long-term driving datasets (with 8 km per traverse) without metric subsampling, thereby preserving natural variations in speed and stop duration that influence event density. We also conduct a comprehensive analysis of key design choices, including binning strategies, polarity handling, reconstruction methods, and feature extractors, to identify the most critical components for robust performance. Additionally, we propose a modification to the standard sequence matching framework that enhances performance at longer sequence lengths. To facilitate future research, we will release our codebase and benchmarking framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Ensemble-Based Event Camera Place Recognition Under Varying Illumination

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация