Fast Feature Field ($\text{F}^3$): A Predictive Representation of Events
2509.25146v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-10-01
Авторы:
Richeek Das, Kostas Daniilidis, Pratik Chaudhari
Резюме на русском
## Контекст
Event-based сенсоры, такие как Dynamic Vision Sensors (DVS), получают данные в виде последовательностей событий, которые достаточно сложно интерпретировать с помощью традиционных методов обработки изображений. Эти сенсоры показывают высокую чувствительность к движению и низкую задержку, но при этом требуют эффективных алгоритмов для интерпретации и предсказания поведения объектов в реальном времени. Отсутствие эффективных математических моделей для представления данных от таких сенсоров ограничивает потенциал их применения в системах супермаркетинга, водительских ассистентах и роботов. Наша мотивация заключается в разработке подробной теоретической модели и алгоритмов, который бы способствовал эффективному представлению данных и позволил бы использовать event-based сенсоры в широком круге задач.
## Метод
Разработанная модель, названная Fast Feature Field ($\text{F}^3$), основывается на математической модели, которая предсказывает будущие события на основе прошлых данных. Основной метод состоит в том, чтобы представить каждый слой данных в виде многоканального изображения, которое содержит информацию о спарсе, движении и структуре сцены. Модель использует механизмы "глубинных наборов" (deep sets) и многорезольвенческого хеширования для обработки данных. Эти методы позволяют эффективно обрабатывать данные сенсоров, которые имеют спарсоедненую природу. Алгоритмы работают на высоких частотах (до 440 Гц при разрешении VGA и 120 Гц при разрешении HD), что делает их применимыми для реального времени.
## Результаты
Мы провели эксперименты на данных, полученных с трех различных роботизированных платформ (автомобиля, легкого транспорта и воздушного робота) в различных условиях освещения (днем, ночью) и средах (внутренних, внешних, городских и местности). Модель $\text{F}^3$ показала состояние лучшего результата на задачах оценки оптического потока, сегментации сеансов и оценки метрического расстояния. В результате, наши решения достигли высокой точности и эффективности, сохранив высокую частоту работы (до 75 Гц при HD-резолюции). Это делает $\text{F}^3$ применимым в различных сценариях, включая водительские системы, супермаркетинг и роботизированные системы.
## Значимость
Предлагаемый подход имеет многочисленные применения в области робототехники, систем управления транспортом и супермаркетинга. Он позволяет эффективно обрабатывать данные, которые требуют сильной зависимости от времени, что делает его идеальным для сценариев, требующих реального времени. Модель $\text{F}^3$ показала свою выносливость в оптическом потоке,
Abstract
This paper develops a mathematical argument and algorithms for building
representations of data from event-based cameras, that we call Fast Feature
Field ($\text{F}^3$). We learn this representation by predicting future events
from past events and show that it preserves scene structure and motion
information. $\text{F}^3$ exploits the sparsity of event data and is robust to
noise and variations in event rates. It can be computed efficiently using ideas
from multi-resolution hash encoding and deep sets - achieving 120 Hz at HD and
440 Hz at VGA resolutions. $\text{F}^3$ represents events within a contiguous
spatiotemporal volume as a multi-channel image, enabling a range of downstream
tasks. We obtain state-of-the-art performance on optical flow estimation,
semantic segmentation, and monocular metric depth estimation, on data from
three robotic platforms (a car, a quadruped robot and a flying platform),
across different lighting conditions (daytime, nighttime), environments
(indoors, outdoors, urban, as well as off-road) and dynamic vision sensors
(resolutions and event rates). Our implementations can predict these tasks at
25-75 Hz at HD resolution.