Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement

2508.15027v1 cs.CV, cs.AI, cs.LG 2025-08-23

Авторы:

Chunming He, Fengyang Xiao, Rihan Zhang, Chengyu Fang, Deng-Ping Fan, Sina Farsiu

Резюме на русском

## Контекст В области поиска признаков и визуального распознавания скрытых объектов встречаются часто проблемы с неопределенностью, особенно при работе с неполными или зашумленными изображениями. Многие существующие методы используют реversible стратегии для уменьшения неопределенности, однако они ограничиваются только масочным доменом. Это опускает нераскрытый потенциал RGB-домена. Наша работа нацелена на развитие более эффективных алгоритмов для решения задачи Concealed Visual Perception (CVP), объединяя реversible моделирование и генерирующий подход для глубокого улучшения изображений. ## Метод Мы предлагаем Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement (RUN++), который представляет собой динамическую систему, основанную на математической оптимизации. RUN++ разворачивает итеративный процесс решения в многоступенчатую архитектуру нейросети. Он применяет reversible моделирование как в маскировочном, так и в RGB-доменах, что позволяет уменьшить неопределенность с помощью diffusion model. Каждая стадия включает в себя: 1. **Concealed Object Region Extraction (CORE)** – уточняет области объектов в маскировочном домене; 2. **Context-Aware Region Enhancement (CARE)** – улучшает разделение фона и переднего плана в RGB-домене; 3. **Finetuning Iteration via Noise-based Enhancement (FINE)** – использует Bernoulli diffusion model для целевого уточнения неясных областей в segmentation maskе. Эта система синергетически совмещает мощь реversible моделирования с разрешением неопределенности diffusion modelа, что улучшает точность и эффективность распознавания скрытых объектов. ## Результаты Мы провели эксперименты на различных датасетах, таких как CVP-1K и CVP-2K, использовали подход с разделением кросс-валидации. Наши результаты показали, что RUN++ превосходит существующие методы в точности распознавания и снижении false positives и false negatives. Мы также проверили эффективность нашего подхода в условиях реальных зашумлений и деградаций, доказав его жизнеспособность в реальных сценариях. ## Значимость RUN++ может применяться в сферах, требующих точного распознавания скрытых объектов, таких как безопасность, медицина и автоматизированные системы. Он обеспечивает высокую точность и уменьшает false positives, что делает его подходящим для сложных реальных задач. Благодаря использованию diffusion modelа, RUN++ эффективен в ресурсоемких ситуациях, таких как real-time recognition. ## Выводы RUN++ представляет собой перспективный подход к решению задачи Concealed Visual Perception, который совмещает реversible моделирование с генерирующими методами для обеспечения точности и устойчивости. Будущие исследования будут направлены на расширение этого подхода к другим биомедицинским и безопасностным задачам, а также на дополнительное улучшение его эффективности и скорости.

Abstract

Existing methods for concealed visual perception (CVP) often leverage reversible strategies to decrease uncertainty, yet these are typically confined to the mask domain, leaving the potential of the RGB domain underexplored. To address this, we propose a reversible unfolding network with generative refinement, termed RUN++. Specifically, RUN++ first formulates the CVP task as a mathematical optimization problem and unfolds the iterative solution into a multi-stage deep network. This approach provides a principled way to apply reversible modeling across both mask and RGB domains while leveraging a diffusion model to resolve the resulting uncertainty. Each stage of the network integrates three purpose-driven modules: a Concealed Object Region Extraction (CORE) module applies reversible modeling to the mask domain to identify core object regions; a Context-Aware Region Enhancement (CARE) module extends this principle to the RGB domain to foster better foreground-background separation; and a Finetuning Iteration via Noise-based Enhancement (FINE) module provides a final refinement. The FINE module introduces a targeted Bernoulli diffusion model that refines only the uncertain regions of the segmentation mask, harnessing the generative power of diffusion for fine-detail restoration without the prohibitive computational cost of a full-image process. This unique synergy, where the unfolding network provides a strong uncertainty prior for the diffusion model, allows RUN++ to efficiently direct its focus toward ambiguous areas, significantly mitigating false positives and negatives. Furthermore, we introduce a new paradigm for building robust CVP systems that remain effective under real-world degradations and extend this concept into a broader bi-level optimization framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация