SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop
2508.12813v1
cs.CV, cs.LG
2025-08-20
Авторы:
Friedhelm Hamann, Emil Mededovic, Fabian Gülhan, Yuli Wu, Johannes Stegmaier, Jing He, Yiqing Wang, Kexin Zhang, Lingling Li, Licheng Jiao, Mengru Ma, Hongxiang Huang, Yuhao Yan, Hongwei Ren, Xiaopeng Lin, Yulong Huang, Bojun Cheng, Se Hyun Lee, Gyu Sung Ham, Kanghan Oh, Gi Hyun Lim, Boxuan Yang, Bowen Du, Guillermo Gallego
Резюме на русском
#### Контекст
Современные системы визуального восприятия сталкиваются с требованиями к высокой точности, быстродействию и эффективности в обработке многоканального видео. Особенно актуальной оказывается задача сегментации инстанций в пространственно-временной области (Spatio-temporal Instance Segmentation, SIS), особенно при использовании современных эвент-камер. Эти камеры предоставляют данные в форме потоков событий, которые характеризуются повышенной чувствительностью к движению и малым потреблением энергии. Однако обработка таких данных представляет сложности, включая неустойчивость сигнала, высокую частоту событий и синхронизацию между различными каналами. Задача SIS для таких данных является ключевым вопросом в рамках работ CVPR 2025 Event-based Vision Workshop, нацеленных на развитие методов, эффективных для реального времени и устойчивых к разным условиям.
#### Метод
Методология SIS-Challenge основывается на создании открытого датасета, содержащего синхронизированные данные от эвент-камеры и граyzскай-камеры. Этакий подход позволяет обеспечить точную сегментацию объектов, необходимую для решения проблем взаимодействия с миром реального времени. Использовались подходы, основанные на нейронных сетях, включая U-Net или Mask R-CNN, адаптированные для обработки данных из эвент-камер. Основной архитектурой стали модели сверточных нейронных сетей с дополнительными модулями, учитывающими пространственно-временные особенности данных. Такая архитектура позволяет объединить сигналы из разных каналов и повысить точность исходящих прогнозов.
#### Результаты
В рамках SIS-Challenge приняли участие 12 команд, подавших результаты. Топ-5 команд, достигших лучших результатов, использовали алгоритмы, основанные на нейронных сетях. Обнаружено, что улучшение точности сегментации происходит благодаря использованию синхронизированных входных данных, а также специальным методам, учитывающим характеристики эвент-камер. Наиболее эффективными оказались модели, использующие адаптивные методы свертки, глубокие связи между слоями и единовременную обработку данных эвент-камеры и граyzскай-камеры. Эти результаты показывают, что современные сети могут эффективно обрабатывать данные из многоканальных источников, при этом обеспечивая высокую скорость и точность.
#### Значимость
Результаты SIS-Challenge имеют значительное значение в области компьютерного зрения, особенно для применения в реальном времени, таких как обозревание, робототехника и автоматическое управление. Высокая точность, достигнутая в ходе этого соревнования, открывает новые возможности для создания систем, эффектив
Abstract
We present an overview of the Spatio-temporal Instance Segmentation (SIS)
challenge held in conjunction with the CVPR 2025 Event-based Vision Workshop.
The task is to predict accurate pixel-level segmentation masks of defined
object classes from spatio-temporally aligned event camera and grayscale camera
data. We provide an overview of the task, dataset, challenge details and
results. Furthermore, we describe the methods used by the top-5 ranking teams
in the challenge. More resources and code of the participants' methods are
available here:
https://github.com/tub-rip/MouseSIS/blob/main/docs/challenge_results.md
Ссылки и действия
Дополнительные ресурсы: