Ensemble-Based Event Camera Place Recognition Under Varying Illumination
2509.01968v1
cs.CV, cs.RO
2025-09-05
Авторы:
Therese Joseph, Tobias Fischer, Michael Milford
Резюме на русском
#### Контекст
Область визуального распознавания мест (Visual Place Recognition, VPR) играет ключевую роль в автономных системах навигации, позволяя роботам ориентироваться в различных средах. Однако существующие системы чувствительны к изменениям освещённости, что приводит к понижению точности распознавания. Особенно затруднительными для существующих VPR-систем являются переходы между различными условиями освещения, такими как день и ночь. Конвекциональные камеры способны захватывать информацию с низкой частотой кадров и с ограниченным динамическим диапазоном, что приводит к потере деталей при сильно изменяющейся освещённости. В отличие от них, **event cameras** предлагают высокую динамическую диапазон и низкую задержку, что делает их более устойчивыми к быстро изменяющимся условиям освещения и кинематическим помехам. Однако установить их полный потенциал в VPR, особенно при сильных изменениях освещения, остаётся нерешённой задачей.
#### Метод
Мы предлагаем **ensemble-based approach** для VPR с использованием **event cameras**, который объединяет результаты из нескольких моделей распознавания. Метод включает в себя:
1. **Sequence-matched reconstructions**: Мы используем различные методы построения кадров из событий (event-to-frame), чтобы обрабатывать различные условия освещения.
2. **VPR feature extractors**: Для каждого построенного кадра мы используем различные функции, которые извлекают признаки для распознавания мест.
3. **Temporal resolution**: Мы анализируем несколько уровней разрешения времени, чтобы учитывать как мгновенные, так и длительные изменения освещения.
В отличие от предыдущих ensemble-based методов, которые ограничиваются только уровнём времени, наш подход объединяет результаты из нескольких моделей, что даёт более точные и устойчивые результаты.
#### Результаты
Мы проводили эксперименты на двух длительных датасетах, покрывающих 8 км каждый, с детальным анализом ключевых дизайн-вопросов, таких как:
- **Binning strategies**: Мы сравнили различные стратегии бининга событий.
- **Polarity handling**: Мы проверили, как положительные и отрицательные событий влияют на результаты.
- **Reconstruction methods**: Мы сравнили различные методы построения кадров из событий.
- **Feature extractors**: Мы исследовали различные модели, которые извлекают признаки для распознавания мест.
Наши результаты показывают, что наш подход достиг **57% relative improvement in Recall@1** при переходе из дня в ночь, что демонстрирует его устойчивость к изменениям освещения.
#### Значимость
Наш подход может быть применён в многих областях, включая автономную навигацию, системы поиска и спасения, а также системы мониторинга и анализа видео. Особым преимуществом является устойчивость к сильным изменениям освещения, что делает его идеальным
Abstract
Compared to conventional cameras, event cameras provide a high dynamic range
and low latency, offering greater robustness to rapid motion and challenging
lighting conditions. Although the potential of event cameras for visual place
recognition (VPR) has been established, developing robust VPR frameworks under
severe illumination changes remains an open research problem. In this paper, we
introduce an ensemble-based approach to event camera place recognition that
combines sequence-matched results from multiple event-to-frame reconstructions,
VPR feature extractors, and temporal resolutions. Unlike previous event-based
ensemble methods, which only utilise temporal resolution, our broader fusion
strategy delivers significantly improved robustness under varied lighting
conditions (e.g., afternoon, sunset, night), achieving a 57% relative
improvement in Recall@1 across day-night transitions. We evaluate our approach
on two long-term driving datasets (with 8 km per traverse) without metric
subsampling, thereby preserving natural variations in speed and stop duration
that influence event density. We also conduct a comprehensive analysis of key
design choices, including binning strategies, polarity handling, reconstruction
methods, and feature extractors, to identify the most critical components for
robust performance. Additionally, we propose a modification to the standard
sequence matching framework that enhances performance at longer sequence
lengths. To facilitate future research, we will release our codebase and
benchmarking framework.
Ссылки и действия
Дополнительные ресурсы: