SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop

2508.12813v1 cs.CV, cs.LG 2025-08-20
Авторы:

Friedhelm Hamann, Emil Mededovic, Fabian Gülhan, Yuli Wu, Johannes Stegmaier, Jing He, Yiqing Wang, Kexin Zhang, Lingling Li, Licheng Jiao, Mengru Ma, Hongxiang Huang, Yuhao Yan, Hongwei Ren, Xiaopeng Lin, Yulong Huang, Bojun Cheng, Se Hyun Lee, Gyu Sung Ham, Kanghan Oh, Gi Hyun Lim, Boxuan Yang, Bowen Du, Guillermo Gallego

Резюме на русском

#### Контекст Современные системы визуального восприятия сталкиваются с требованиями к высокой точности, быстродействию и эффективности в обработке многоканального видео. Особенно актуальной оказывается задача сегментации инстанций в пространственно-временной области (Spatio-temporal Instance Segmentation, SIS), особенно при использовании современных эвент-камер. Эти камеры предоставляют данные в форме потоков событий, которые характеризуются повышенной чувствительностью к движению и малым потреблением энергии. Однако обработка таких данных представляет сложности, включая неустойчивость сигнала, высокую частоту событий и синхронизацию между различными каналами. Задача SIS для таких данных является ключевым вопросом в рамках работ CVPR 2025 Event-based Vision Workshop, нацеленных на развитие методов, эффективных для реального времени и устойчивых к разным условиям. #### Метод Методология SIS-Challenge основывается на создании открытого датасета, содержащего синхронизированные данные от эвент-камеры и граyzскай-камеры. Этакий подход позволяет обеспечить точную сегментацию объектов, необходимую для решения проблем взаимодействия с миром реального времени. Использовались подходы, основанные на нейронных сетях, включая U-Net или Mask R-CNN, адаптированные для обработки данных из эвент-камер. Основной архитектурой стали модели сверточных нейронных сетей с дополнительными модулями, учитывающими пространственно-временные особенности данных. Такая архитектура позволяет объединить сигналы из разных каналов и повысить точность исходящих прогнозов. #### Результаты В рамках SIS-Challenge приняли участие 12 команд, подавших результаты. Топ-5 команд, достигших лучших результатов, использовали алгоритмы, основанные на нейронных сетях. Обнаружено, что улучшение точности сегментации происходит благодаря использованию синхронизированных входных данных, а также специальным методам, учитывающим характеристики эвент-камер. Наиболее эффективными оказались модели, использующие адаптивные методы свертки, глубокие связи между слоями и единовременную обработку данных эвент-камеры и граyzскай-камеры. Эти результаты показывают, что современные сети могут эффективно обрабатывать данные из многоканальных источников, при этом обеспечивая высокую скорость и точность. #### Значимость Результаты SIS-Challenge имеют значительное значение в области компьютерного зрения, особенно для применения в реальном времени, таких как обозревание, робототехника и автоматическое управление. Высокая точность, достигнутая в ходе этого соревнования, открывает новые возможности для создания систем, эффектив

Abstract

We present an overview of the Spatio-temporal Instance Segmentation (SIS) challenge held in conjunction with the CVPR 2025 Event-based Vision Workshop. The task is to predict accurate pixel-level segmentation masks of defined object classes from spatio-temporally aligned event camera and grayscale camera data. We provide an overview of the task, dataset, challenge details and results. Furthermore, we describe the methods used by the top-5 ranking teams in the challenge. More resources and code of the participants' methods are available here: https://github.com/tub-rip/MouseSIS/blob/main/docs/challenge_results.md

Ссылки и действия