DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception

2509.09828v1 cs.CV, cs.LG, cs.RO 2025-09-16
Авторы:

Tim Broedermannn, Christos Sakaridis, Luigi Piccinelli, Wim Abbeloos, Luc Van Gool

Резюме на русском

#### Контекст Для обеспечения безопасной и эффективной самостоятельной навигации автомобилей необходимо устойчивое сенсорное восприятие окружающей среды. Однако современные автомобили оснащаются разнородным комплектом сенсоров, которые обладают своими сильными и слабыми сторонами. Объединение этих сенсоров в единый поток данных для получения устойчивого представления окружающего мира — это вызов, который еще не был полностью решен. Особенно сложно становится при высоких скоростях или при условиях плохого видимости, когда некоторые сенсоры могут давать ненадёжные данные. Наша статья предлагает новую методологию, которая использует глубину (depth) как устойчивый признак для улучшения сенсорной фуссионации. #### Метод Предлагаемая методология, DGFusion (Depth-Guided Fusion), представляет собой усовершенствованный подход к сенсорной фуссионации, основанный на глубинных данных. Мы предполагаем, что каждый сенсор вкладывает в свои данные своих сильных и слабых сторон, которые зависят от условий. Мы предлагаем использовать лидар (laser scanner) как основной источник глубинных данных, так как он достаточно стабилен в погодных условиях. Наша сеть DGFusion подходит к многомодальной сегментации как к задаче многозадачного обучения: лидар используется как входной сенсор и, с другой стороны, как тренировочная подсистема для обучения глубины. Мы также предлагаем специальный ауксоiliary depth head, который извлекает depth-aware features и кодирует их в виде токенов, которые динамически управляют кросс-модальной фуссионацией. Этот подход позволяет переключаться между модами в зависимости от условий, обеспечивая устойчивый результат. #### Результаты Мы проверили нашу модель на двух трудной классификации датасетах: MUSES и DELIVER. Для сравнения, мы использовали предыдущие решения, такие как MMF, PON, и BRUNO. Наши результаты показали, что DGFusion превосходит эти модели в сегментации панорамы (panoptic segmentation) и семантической сегментации. Помимо этого, мы проверили влияние внедрения токенов глубины на потери, используя нашу произвольную функцию loss. Эти эксперименты подтвердили, что DGFusion не только повышает точность, но и повышает устойчивость перцепции в условиях плохой видимости. #### Значимость Наш подход может применяться в различных областях, включая самоуправляемые транспортные средства, интеллектуальные города, а также системы умных домов, где необходима устойчивая обработка сенсорных данных. Главное преимущество DGFusion заключается в том, что он устойчив к переменным условиям, и это достигается благодаря применению глубины как устойчивого признака. Это может привести к улучшению

Abstract

Robust semantic perception for autonomous vehicles relies on effectively combining multiple sensors with complementary strengths and weaknesses. State-of-the-art sensor fusion approaches to semantic perception often treat sensor data uniformly across the spatial extent of the input, which hinders performance when faced with challenging conditions. By contrast, we propose a novel depth-guided multimodal fusion method that upgrades condition-aware fusion by integrating depth information. Our network, DGFusion, poses multimodal segmentation as a multi-task problem, utilizing the lidar measurements, which are typically available in outdoor sensor suites, both as one of the model's inputs and as ground truth for learning depth. Our corresponding auxiliary depth head helps to learn depth-aware features, which are encoded into spatially varying local depth tokens that condition our attentive cross-modal fusion. Together with a global condition token, these local depth tokens dynamically adapt sensor fusion to the spatially varying reliability of each sensor across the scene, which largely depends on depth. In addition, we propose a robust loss for our depth, which is essential for learning from lidar inputs that are typically sparse and noisy in adverse conditions. Our method achieves state-of-the-art panoptic and semantic segmentation performance on the challenging MUSES and DELIVER datasets. Code and models will be available at https://github.com/timbroed/DGFusion

Ссылки и действия