Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement
2508.15027v1
cs.CV, cs.AI, cs.LG
2025-08-23
Авторы:
Chunming He, Fengyang Xiao, Rihan Zhang, Chengyu Fang, Deng-Ping Fan, Sina Farsiu
Резюме на русском
## Контекст
В области поиска признаков и визуального распознавания скрытых объектов встречаются часто проблемы с неопределенностью, особенно при работе с неполными или зашумленными изображениями. Многие существующие методы используют реversible стратегии для уменьшения неопределенности, однако они ограничиваются только масочным доменом. Это опускает нераскрытый потенциал RGB-домена. Наша работа нацелена на развитие более эффективных алгоритмов для решения задачи Concealed Visual Perception (CVP), объединяя реversible моделирование и генерирующий подход для глубокого улучшения изображений.
## Метод
Мы предлагаем Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement (RUN++), который представляет собой динамическую систему, основанную на математической оптимизации. RUN++ разворачивает итеративный процесс решения в многоступенчатую архитектуру нейросети. Он применяет reversible моделирование как в маскировочном, так и в RGB-доменах, что позволяет уменьшить неопределенность с помощью diffusion model. Каждая стадия включает в себя:
1. **Concealed Object Region Extraction (CORE)** – уточняет области объектов в маскировочном домене;
2. **Context-Aware Region Enhancement (CARE)** – улучшает разделение фона и переднего плана в RGB-домене;
3. **Finetuning Iteration via Noise-based Enhancement (FINE)** – использует Bernoulli diffusion model для целевого уточнения неясных областей в segmentation maskе.
Эта система синергетически совмещает мощь реversible моделирования с разрешением неопределенности diffusion modelа, что улучшает точность и эффективность распознавания скрытых объектов.
## Результаты
Мы провели эксперименты на различных датасетах, таких как CVP-1K и CVP-2K, использовали подход с разделением кросс-валидации. Наши результаты показали, что RUN++ превосходит существующие методы в точности распознавания и снижении false positives и false negatives. Мы также проверили эффективность нашего подхода в условиях реальных зашумлений и деградаций, доказав его жизнеспособность в реальных сценариях.
## Значимость
RUN++ может применяться в сферах, требующих точного распознавания скрытых объектов, таких как безопасность, медицина и автоматизированные системы. Он обеспечивает высокую точность и уменьшает false positives, что делает его подходящим для сложных реальных задач. Благодаря использованию diffusion modelа, RUN++ эффективен в ресурсоемких ситуациях, таких как real-time recognition.
## Выводы
RUN++ представляет собой перспективный подход к решению задачи Concealed Visual Perception, который совмещает реversible моделирование с генерирующими методами для обеспечения точности и устойчивости. Будущие исследования будут направлены на расширение этого подхода к другим биомедицинским и безопасностным задачам, а также на дополнительное улучшение его эффективности и скорости.
Abstract
Existing methods for concealed visual perception (CVP) often leverage
reversible strategies to decrease uncertainty, yet these are typically confined
to the mask domain, leaving the potential of the RGB domain underexplored. To
address this, we propose a reversible unfolding network with generative
refinement, termed RUN++. Specifically, RUN++ first formulates the CVP task as
a mathematical optimization problem and unfolds the iterative solution into a
multi-stage deep network. This approach provides a principled way to apply
reversible modeling across both mask and RGB domains while leveraging a
diffusion model to resolve the resulting uncertainty. Each stage of the network
integrates three purpose-driven modules: a Concealed Object Region Extraction
(CORE) module applies reversible modeling to the mask domain to identify core
object regions; a Context-Aware Region Enhancement (CARE) module extends this
principle to the RGB domain to foster better foreground-background separation;
and a Finetuning Iteration via Noise-based Enhancement (FINE) module provides a
final refinement. The FINE module introduces a targeted Bernoulli diffusion
model that refines only the uncertain regions of the segmentation mask,
harnessing the generative power of diffusion for fine-detail restoration
without the prohibitive computational cost of a full-image process. This unique
synergy, where the unfolding network provides a strong uncertainty prior for
the diffusion model, allows RUN++ to efficiently direct its focus toward
ambiguous areas, significantly mitigating false positives and negatives.
Furthermore, we introduce a new paradigm for building robust CVP systems that
remain effective under real-world degradations and extend this concept into a
broader bi-level optimization framework.
Ссылки и действия
Дополнительные ресурсы: