Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models

2509.20107v2 cs.CV, cs.AI, cs.LG, cs.RO 2025-09-26
Авторы:

Juana Valeria Hurtado, Rohit Mohan, Abhinav Valada

Резюме на русском

#### Контекст Область исследования — семантическое разделение данных hyperspectral imaging (HSI). Несмотря на то, что HSI предоставляет богатые спектральные данные, способствующие расширению мощности роботов в сложных средах, существующие методы семантического разделения либо недостаточно эффективны, либо ориентированы на RGB-данные, не спроектированные для HSI. Это делает необходимым разработку новых подходов, которые бы позволили эффективно использовать HSI в семантическом разделении. Мотивация заключается в том, чтобы сделать HSI более доступным для машинного обучения, оптимизировав его для задач, требующих высокого качества разделения объектов. #### Метод Предлагается новый адаптер для hyperspectral imaging, основанный на vision foundation models. Этот адаптер включает в себя спектральный transformer, который эффективно обрабатывает спектральные данные, и модуль spectrum-aware spatial prior, который учитывает информацию о пространстве. Для улучшения взаимодействия двух моделей вводится modality-aware interaction block, позволяющий лучше интегрировать HSI-данные и фирзеризованные фичи модели Vision Transformer. Эта архитектура гарантирует лучшую обработку данных, учитывая их специфику, и повышает качество семантического разделения. #### Результаты Авторы проводили эксперименты на трех различных датасетах, связанных с autonomous driving. Использовались HSI-данные в качестве входных, чтобы оценить эффективность адаптера. Результаты показали, что архитектура во всех случаях показала лучший результат по сравнению с другими методами семантического разделения. Она демонстрирует высокую точность в распознавании объектов и их классификации, даже в условиях сложного спектрального содержимого и переменного освещения. Это обозначает значительное улучшение перед существующими HSI-методами и RGB-методами. #### Значимость Предлагаемый адаптер может быть применен в следующих областях: автомобильная электроника, системы безопасности, исследования окружающей среды, а также в робототехнике. Он предлагает значительные преимущества, такие как повышение точности распознавания объектов и улучшение производительности HSI в сложных средах. Это может привести к расширению использования HSI в более широких приложениях, включая самоуправляемые автомобили и системы автоматического мониторинга. #### Выводы Адаптер для hyperspectral imaging, основанный на vision foundation models, демонстрирует высокую эффективность в семантическом разделении. Он представляет собой новый подход к обработке HSI-данных, который дополняет существующие архитектуры. Будущие исследования могут сфокусироваться на улучшении модуля modality-aware interaction и исследовании других приложений, в которых HSI может предоставить значите

Abstract

Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inputs. In this work, we propose a novel hyperspectral adapter that leverages pretrained vision foundation models to effectively learn from hyperspectral data. Our architecture incorporates a spectral transformer and a spectrum-aware spatial prior module to extract rich spatial-spectral features. Additionally, we introduce a modality-aware interaction block that facilitates effective integration of hyperspectral representations and frozen vision Transformer features through dedicated extraction and injection mechanisms. Extensive evaluations on three benchmark autonomous driving datasets demonstrate that our architecture achieves state-of-the-art semantic segmentation performance while directly using HSI inputs, outperforming both vision-based and hyperspectral segmentation methods. We make the code available at https://hsi-adapter.cs.uni-freiburg.de.

Ссылки и действия