Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision

2509.11476v1 cs.CV, cs.LG 2025-09-17

Авторы:

Tianyao Sun, Dawei Xiang, Tianqi Ding, Xiang Fang, Yijiashun Qi, Zunduo Zhao

Резюме на русском

#### Контекст Область исследования рассматривает Infrared and Visible Image Fusion (IVIF), которая является основным заданием в рамках многомодального восприятия. Задача IVIF заключается в интеграции комплементарных структурных и текстурных признаков из разных диапазонов спектрального диапазона. Недостаток существующих подходов заключается в ограниченных возможностях моделирования взаимодействия между модальностями и недостаточной чёткости результатов по отношению к задачам семантического понимания изображений. Эта проблема мотивирует разработку методов, которые учитывают содержательную семантику в области интереса и имеют более чёткий графический результат. #### Метод Предлагается FusionNet — новая модель с полностью единой структурой, которая состоит из нескольких модулей. Основным модулем является Modality-Aware Attention Mechanism (MAAM), который анализирует и производит динамическое изменение вклада от каждой модальности в зависимости от степени их дискриминативности. Для того, чтобы добиться точного и интерпретируемого результата, включён Pixel-wise Alpha Blending Module (PABM), который учится определять специфичные для каждого пикселя веса смешения в адаптивном и содержательно-ориентированном порядке. Для сохранения семантической согласованности в области интереса включен Target-Aware Loss. Этот подход использует упрощённую супервайзинг-зону для обеспечения точности семантической консистентности вокруг объектов (например, пешеходов, транспортных средств). #### Результаты Использованы данные из публичного M3FD-датасета для экспериментов сравнения. Результаты показывают, что FusionNet выдаёт изображения, имеющие более высокую чёткость и понятность, в сравнении с современными подходами. Особо выделяется повышение в семантической сохранности, а также улучшение показателей качества восприятия изображений. Обеспечены эксперименты с различными сценами, включая сложные условия видимости, что подтверждает универсальность и надежность предложенного подхода. #### Значимость Предложенный подход имеет широкое применение в области многомодального восприятия, включая области систем безопасности, транспорта и персональных устройств. Основные преимущества включают улучшенную чёткость изображений, повышение точности задач обнаружения объектов и сценарного понимания. Функциональность FusionNet демонстрирует потенциал для расширения в будущих исследованиях, например, в сфере мобильного зрения и интеллектуальных систем. #### Выводы Основным достижением является разработка FusionNet — мощного и эффективного фреймворка для semantic-aware multi-modal image fusion. Этот подход показывает значительные преимущества в сравнении с предшествующи

Abstract

Infrared and visible image fusion (IVIF) is a fundamental task in multi-modal perception that aims to integrate complementary structural and textural cues from different spectral domains. In this paper, we propose FusionNet, a novel end-to-end fusion framework that explicitly models inter-modality interaction and enhances task-critical regions. FusionNet introduces a modality-aware attention mechanism that dynamically adjusts the contribution of infrared and visible features based on their discriminative capacity. To achieve fine-grained, interpretable fusion, we further incorporate a pixel-wise alpha blending module, which learns spatially-varying fusion weights in an adaptive and content-aware manner. Moreover, we formulate a target-aware loss that leverages weak ROI supervision to preserve semantic consistency in regions containing important objects (e.g., pedestrians, vehicles). Experiments on the public M3FD dataset demonstrate that FusionNet generates fused images with enhanced semantic preservation, high perceptual quality, and clear interpretability. Our framework provides a general and extensible solution for semantic-aware multi-modal image fusion, with benefits for downstream tasks such as object detection and scene understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация