Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework

2508.18249v1 cs.RO, cs.CV 2025-08-27
Авторы:

Zipeng Fang, Yanbo Wang, Lei Zhao, Weidong Chen

Резюме на русском

## Контекст Траверсируемость оценки является ключевым аспектом для обеспечения эффективного взаимодействия роботов с различными типами местности и окружающих условий. Однако существующие самостоятельно обучающиеся методы часто не удается точно охарактеризовать зоны, не подходящие для движения. Кроме того, большинство работ фокусируются на работе с одной сенсорной моделью, недостаточно используя потенциал синергетического использования мультимодальных данных для более достоверных оценок. Наша мотивация заключается в разработке мультимодального самостоятельно обучающегося подхода для эффективной оценки траверсируемости. ## Метод Мы предлагаем расширенную методологию, включающую в себя многошаговый пайплайн автоматической разметки. В нем способствуют совместному использованию данных по шагам, LiDAR-данных и изображений камеры, чтобы формировать метки траверсируемости, которые учитывают как семантические, так и геометрические признаки. Для оценки мы используем двухпоточную сеть, которая обучается с использованием мультимодальных меток. Для того чтобы преодолеть недостатки в псевдомарках, мы внедрили поддержку LiDAR. Мы проверяем нашу модель на различных типах ландшафтов, таких как городские, природные и университетские территории. ## Результаты Проведенные эксперименты показали, что наш подход достигает коэффициента ИоУ (IoU) около 88% при проведении разметки. В сравнении с другими самостоятельно обучающимися методами, наше решение показало значительное увеличение производительности, оцениваясь на 1.6-3.5% в более высокой точности оценки траверсируемости по всем примерным данным. Это указывает на эффективность использования мультимодального подхода и интегрированного носителя LiDAR-данных. ## Значимость Наша разработка может применяться в сценариях, требующих роботов для работы в условиях сложных местностей, например, в системах поисково-спасательных операций, доставке, а также в агротехнологиях. Основное преимущество — улучшенная точность оценки в различных условиях, повышение надежности системы, и возможность интегрировать несколько типов сенсоров для повышения общей эффективности. Это может способствовать развитию робототехники в области автономного движения. ## Выводы Мы представили мультимодальный самостоятельно обучающийся подход для траверсируемости, который позволяет повысить точность и надежность оценки траверсируемости. Наши результаты показывают перспективу использования мультимодальных меток для улучшения систем автономного взаимодействия с окружением. Мы планируем дальнейшие

Abstract

Traversability estimation is critical for enabling robots to navigate across diverse terrains and environments. While recent self-supervised learning methods achieve promising results, they often fail to capture the characteristics of non-traversable regions. Moreover, most prior works concentrate on a single modality, overlooking the complementary strengths offered by integrating heterogeneous sensory modalities for more robust traversability estimation. To address these limitations, we propose a multimodal self-supervised framework for traversability labeling and estimation. First, our annotation pipeline integrates footprint, LiDAR, and camera data as prompts for a vision foundation model, generating traversability labels that account for both semantic and geometric cues. Then, leveraging these labels, we train a dual-stream network that jointly learns from different modalities in a decoupled manner, enhancing its capacity to recognize diverse traversability patterns. In addition, we incorporate sparse LiDAR-based supervision to mitigate the noise introduced by pseudo labels. Finally, extensive experiments conducted across urban, off-road, and campus environments demonstrate the effectiveness of our approach. The proposed automatic labeling method consistently achieves around 88% IoU across diverse datasets. Compared to existing self-supervised state-of-the-art methods, our multimodal traversability estimation network yields consistently higher IoU, improving by 1.6-3.5% on all evaluated datasets.

Ссылки и действия