LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection

2509.18683v1 cs.CV, cs.AI, cs.MM 2025-09-25

Авторы:

Lanhu Wu, Zilin Gao, Hao Fei, Mong-Li Lee, Wynne Hsu

Резюме на русском

## Контекст RGB-D salient object detection (SOD) — это задача, призванная определить наиболее выразительные объекты в сцене, используя краткородименсионные (RGB) и глубинные (D) сигналы. Она широко применяется в сферах, таких как видеонаблюдение, виртуальная реальность и робототехника. Однако существующие подходы часто сталкиваются с проблемами. Методы на основе CNNs ограничиваются ресипросными полями и показывают ограниченную локальную семантику. В то же время, Vision Transformers, хотя и обладают широким полем вида, страдают от высокой вычислительной сложности, что создает проблемы в балансировке производительности и эффективности. Недавно, state space models (SSM), такие как Mamba, показали свой потенциал в моделировании длинных зависимостей с линейной сложностью. Однако, применение SSM непосредственно к RGB-D SOD может привести к недостатку локальных семантик и недостаточной интеграции кросс-модальности. Данное исследование стремится решить эти проблемы, предлагая новую модель LEAF-Mamba. ## Метод LEAF-Mamba основывается на Mamba, но включает два основных компонента, способствующих улучшению производительности. 1) **Локальный эмпатический модуль SSM (LE-SSM)**: он предназначен для построения многомерных зависимостей внутри каждой модальности (RGB и D). Это достигается путем введения эмпатического признака, который выделяет важные локальные детали. 2) **СМ-адаптивный модуль слияния (AFM)**: это модуль, работающий на основе SSM, который обеспечивает дополнительную интерактивность между RGB и D-модальностями. Это позволяет добиться более устойчивого и надежного слияния кросс-модальности. Архитектура LEAF-Mamba адаптивно регулирует локальные зависимости и межмодальные взаимодействия, обеспечивая более точное и эффективное определение выделенных объектов. ## Результаты Исследования проводились на нескольких ключевых RGB-D SOD датасетах, включая NJU2K, SIP, DUT-RGBD и RT-RGBD. На проведенных экспериментах LEAF-Mamba показала значительное превосходство по метрикам, таким как S-Measure, E-Measure и MAE, по сравнению с 16 современными методами. Например, на датасете NJU2K LEAF-Mamba показала S-Measure 0,923, что является наилучшим результатом среди конкурентов. Также, отмечена высокая эффективность, показанная временем работы на GPU. Дополнительно, LEAF-Mamba демонстрирует отличные результаты на задаче RGB-T SOD (RGB-Thermal), указывая на высокую гибкость и общую применимость. ## Значимость Исследование имеет большое значение в сферах, где необходима точная и эффективная идентификация выделенных объектов. Это включает видеонаблюдение, видеоредактирование, интерактивные системы, а также робототехнику. У

Abstract

RGB-D salient object detection (SOD) aims to identify the most conspicuous objects in a scene with the incorporation of depth cues. Existing methods mainly rely on CNNs, limited by the local receptive fields, or Vision Transformers that suffer from the cost of quadratic complexity, posing a challenge in balancing performance and computational efficiency. Recently, state space models (SSM), Mamba, have shown great potential for modeling long-range dependency with linear complexity. However, directly applying SSM to RGB-D SOD may lead to deficient local semantics as well as the inadequate cross-modality fusion. To address these issues, we propose a Local Emphatic and Adaptive Fusion state space model (LEAF-Mamba) that contains two novel components: 1) a local emphatic state space module (LE-SSM) to capture multi-scale local dependencies for both modalities. 2) an SSM-based adaptive fusion module (AFM) for complementary cross-modality interaction and reliable cross-modality integration. Extensive experiments demonstrate that the LEAF-Mamba consistently outperforms 16 state-of-the-art RGB-D SOD methods in both efficacy and efficiency. Moreover, our method can achieve excellent performance on the RGB-T SOD task, proving a powerful generalization ability.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Under...

MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Under...

Pistachio: Towards Synthetic, Balanced, and Long-Form Video Anomaly Benchmarks

Tracking and Segmenting Anything in Any Modality

Decoupled Audio-Visual Dataset Distillation

Навигация