Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision
2509.11476v1
cs.CV, cs.LG
2025-09-17
Авторы:
Tianyao Sun, Dawei Xiang, Tianqi Ding, Xiang Fang, Yijiashun Qi, Zunduo Zhao
Резюме на русском
#### Контекст
Область исследования рассматривает Infrared and Visible Image Fusion (IVIF), которая является основным заданием в рамках многомодального восприятия. Задача IVIF заключается в интеграции комплементарных структурных и текстурных признаков из разных диапазонов спектрального диапазона. Недостаток существующих подходов заключается в ограниченных возможностях моделирования взаимодействия между модальностями и недостаточной чёткости результатов по отношению к задачам семантического понимания изображений. Эта проблема мотивирует разработку методов, которые учитывают содержательную семантику в области интереса и имеют более чёткий графический результат.
#### Метод
Предлагается FusionNet — новая модель с полностью единой структурой, которая состоит из нескольких модулей. Основным модулем является Modality-Aware Attention Mechanism (MAAM), который анализирует и производит динамическое изменение вклада от каждой модальности в зависимости от степени их дискриминативности. Для того, чтобы добиться точного и интерпретируемого результата, включён Pixel-wise Alpha Blending Module (PABM), который учится определять специфичные для каждого пикселя веса смешения в адаптивном и содержательно-ориентированном порядке. Для сохранения семантической согласованности в области интереса включен Target-Aware Loss. Этот подход использует упрощённую супервайзинг-зону для обеспечения точности семантической консистентности вокруг объектов (например, пешеходов, транспортных средств).
#### Результаты
Использованы данные из публичного M3FD-датасета для экспериментов сравнения. Результаты показывают, что FusionNet выдаёт изображения, имеющие более высокую чёткость и понятность, в сравнении с современными подходами. Особо выделяется повышение в семантической сохранности, а также улучшение показателей качества восприятия изображений. Обеспечены эксперименты с различными сценами, включая сложные условия видимости, что подтверждает универсальность и надежность предложенного подхода.
#### Значимость
Предложенный подход имеет широкое применение в области многомодального восприятия, включая области систем безопасности, транспорта и персональных устройств. Основные преимущества включают улучшенную чёткость изображений, повышение точности задач обнаружения объектов и сценарного понимания. Функциональность FusionNet демонстрирует потенциал для расширения в будущих исследованиях, например, в сфере мобильного зрения и интеллектуальных систем.
#### Выводы
Основным достижением является разработка FusionNet — мощного и эффективного фреймворка для semantic-aware multi-modal image fusion. Этот подход показывает значительные преимущества в сравнении с предшествующи
Abstract
Infrared and visible image fusion (IVIF) is a fundamental task in multi-modal
perception that aims to integrate complementary structural and textural cues
from different spectral domains. In this paper, we propose FusionNet, a novel
end-to-end fusion framework that explicitly models inter-modality interaction
and enhances task-critical regions. FusionNet introduces a modality-aware
attention mechanism that dynamically adjusts the contribution of infrared and
visible features based on their discriminative capacity. To achieve
fine-grained, interpretable fusion, we further incorporate a pixel-wise alpha
blending module, which learns spatially-varying fusion weights in an adaptive
and content-aware manner. Moreover, we formulate a target-aware loss that
leverages weak ROI supervision to preserve semantic consistency in regions
containing important objects (e.g., pedestrians, vehicles). Experiments on the
public M3FD dataset demonstrate that FusionNet generates fused images with
enhanced semantic preservation, high perceptual quality, and clear
interpretability. Our framework provides a general and extensible solution for
semantic-aware multi-modal image fusion, with benefits for downstream tasks
such as object detection and scene understanding.
Ссылки и действия
Дополнительные ресурсы: