Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework
2508.18249v1
cs.RO, cs.CV
2025-08-27
Авторы:
Zipeng Fang, Yanbo Wang, Lei Zhao, Weidong Chen
Резюме на русском
## Контекст
Траверсируемость оценки является ключевым аспектом для обеспечения эффективного взаимодействия роботов с различными типами местности и окружающих условий. Однако существующие самостоятельно обучающиеся методы часто не удается точно охарактеризовать зоны, не подходящие для движения. Кроме того, большинство работ фокусируются на работе с одной сенсорной моделью, недостаточно используя потенциал синергетического использования мультимодальных данных для более достоверных оценок. Наша мотивация заключается в разработке мультимодального самостоятельно обучающегося подхода для эффективной оценки траверсируемости.
## Метод
Мы предлагаем расширенную методологию, включающую в себя многошаговый пайплайн автоматической разметки. В нем способствуют совместному использованию данных по шагам, LiDAR-данных и изображений камеры, чтобы формировать метки траверсируемости, которые учитывают как семантические, так и геометрические признаки. Для оценки мы используем двухпоточную сеть, которая обучается с использованием мультимодальных меток. Для того чтобы преодолеть недостатки в псевдомарках, мы внедрили поддержку LiDAR. Мы проверяем нашу модель на различных типах ландшафтов, таких как городские, природные и университетские территории.
## Результаты
Проведенные эксперименты показали, что наш подход достигает коэффициента ИоУ (IoU) около 88% при проведении разметки. В сравнении с другими самостоятельно обучающимися методами, наше решение показало значительное увеличение производительности, оцениваясь на 1.6-3.5% в более высокой точности оценки траверсируемости по всем примерным данным. Это указывает на эффективность использования мультимодального подхода и интегрированного носителя LiDAR-данных.
## Значимость
Наша разработка может применяться в сценариях, требующих роботов для работы в условиях сложных местностей, например, в системах поисково-спасательных операций, доставке, а также в агротехнологиях. Основное преимущество — улучшенная точность оценки в различных условиях, повышение надежности системы, и возможность интегрировать несколько типов сенсоров для повышения общей эффективности. Это может способствовать развитию робототехники в области автономного движения.
## Выводы
Мы представили мультимодальный самостоятельно обучающийся подход для траверсируемости, который позволяет повысить точность и надежность оценки траверсируемости. Наши результаты показывают перспективу использования мультимодальных меток для улучшения систем автономного взаимодействия с окружением. Мы планируем дальнейшие
Abstract
Traversability estimation is critical for enabling robots to navigate across
diverse terrains and environments. While recent self-supervised learning
methods achieve promising results, they often fail to capture the
characteristics of non-traversable regions. Moreover, most prior works
concentrate on a single modality, overlooking the complementary strengths
offered by integrating heterogeneous sensory modalities for more robust
traversability estimation. To address these limitations, we propose a
multimodal self-supervised framework for traversability labeling and
estimation. First, our annotation pipeline integrates footprint, LiDAR, and
camera data as prompts for a vision foundation model, generating traversability
labels that account for both semantic and geometric cues. Then, leveraging
these labels, we train a dual-stream network that jointly learns from different
modalities in a decoupled manner, enhancing its capacity to recognize diverse
traversability patterns. In addition, we incorporate sparse LiDAR-based
supervision to mitigate the noise introduced by pseudo labels. Finally,
extensive experiments conducted across urban, off-road, and campus environments
demonstrate the effectiveness of our approach. The proposed automatic labeling
method consistently achieves around 88% IoU across diverse datasets. Compared
to existing self-supervised state-of-the-art methods, our multimodal
traversability estimation network yields consistently higher IoU, improving by
1.6-3.5% on all evaluated datasets.
Ссылки и действия
Дополнительные ресурсы: