LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection
2509.18683v1
cs.CV, cs.AI, cs.MM
2025-09-25
Авторы:
Lanhu Wu, Zilin Gao, Hao Fei, Mong-Li Lee, Wynne Hsu
Резюме на русском
## Контекст
RGB-D salient object detection (SOD) — это задача, призванная определить наиболее выразительные объекты в сцене, используя краткородименсионные (RGB) и глубинные (D) сигналы. Она широко применяется в сферах, таких как видеонаблюдение, виртуальная реальность и робототехника. Однако существующие подходы часто сталкиваются с проблемами. Методы на основе CNNs ограничиваются ресипросными полями и показывают ограниченную локальную семантику. В то же время, Vision Transformers, хотя и обладают широким полем вида, страдают от высокой вычислительной сложности, что создает проблемы в балансировке производительности и эффективности. Недавно, state space models (SSM), такие как Mamba, показали свой потенциал в моделировании длинных зависимостей с линейной сложностью. Однако, применение SSM непосредственно к RGB-D SOD может привести к недостатку локальных семантик и недостаточной интеграции кросс-модальности. Данное исследование стремится решить эти проблемы, предлагая новую модель LEAF-Mamba.
## Метод
LEAF-Mamba основывается на Mamba, но включает два основных компонента, способствующих улучшению производительности. 1) **Локальный эмпатический модуль SSM (LE-SSM)**: он предназначен для построения многомерных зависимостей внутри каждой модальности (RGB и D). Это достигается путем введения эмпатического признака, который выделяет важные локальные детали. 2) **СМ-адаптивный модуль слияния (AFM)**: это модуль, работающий на основе SSM, который обеспечивает дополнительную интерактивность между RGB и D-модальностями. Это позволяет добиться более устойчивого и надежного слияния кросс-модальности. Архитектура LEAF-Mamba адаптивно регулирует локальные зависимости и межмодальные взаимодействия, обеспечивая более точное и эффективное определение выделенных объектов.
## Результаты
Исследования проводились на нескольких ключевых RGB-D SOD датасетах, включая NJU2K, SIP, DUT-RGBD и RT-RGBD. На проведенных экспериментах LEAF-Mamba показала значительное превосходство по метрикам, таким как S-Measure, E-Measure и MAE, по сравнению с 16 современными методами. Например, на датасете NJU2K LEAF-Mamba показала S-Measure 0,923, что является наилучшим результатом среди конкурентов. Также, отмечена высокая эффективность, показанная временем работы на GPU. Дополнительно, LEAF-Mamba демонстрирует отличные результаты на задаче RGB-T SOD (RGB-Thermal), указывая на высокую гибкость и общую применимость.
## Значимость
Исследование имеет большое значение в сферах, где необходима точная и эффективная идентификация выделенных объектов. Это включает видеонаблюдение, видеоредактирование, интерактивные системы, а также робототехнику. У
Abstract
RGB-D salient object detection (SOD) aims to identify the most conspicuous
objects in a scene with the incorporation of depth cues. Existing methods
mainly rely on CNNs, limited by the local receptive fields, or Vision
Transformers that suffer from the cost of quadratic complexity, posing a
challenge in balancing performance and computational efficiency. Recently,
state space models (SSM), Mamba, have shown great potential for modeling
long-range dependency with linear complexity. However, directly applying SSM to
RGB-D SOD may lead to deficient local semantics as well as the inadequate
cross-modality fusion. To address these issues, we propose a Local Emphatic and
Adaptive Fusion state space model (LEAF-Mamba) that contains two novel
components: 1) a local emphatic state space module (LE-SSM) to capture
multi-scale local dependencies for both modalities. 2) an SSM-based adaptive
fusion module (AFM) for complementary cross-modality interaction and reliable
cross-modality integration. Extensive experiments demonstrate that the
LEAF-Mamba consistently outperforms 16 state-of-the-art RGB-D SOD methods in
both efficacy and efficiency. Moreover, our method can achieve excellent
performance on the RGB-T SOD task, proving a powerful generalization ability.
Ссылки и действия
Дополнительные ресурсы: