RDDM: Practicing RAW Domain Diffusion Model for Real-world Image Restoration

2508.19154v1 eess.IV, cs.AI, cs.CV 2025-08-28
Авторы:

Yan Chen, Yi Wen, Wei Li, Junchao Liu, Yong Guo, Jie Hu, Xinghao Chen

Резюме на русском

## Контекст Реалистичное восстановление изображений является ключевым вопросом в сфере обработки изображений, особенно в условиях ограниченных ресурсов или неполных данных. Обычно, восстановление изображений происходит в пространстве sRGB, но этот подход имеет ограничения. Он оперирует ограниченными данными в формате sRGB, лишаясь доступа к более полным данным, например, RAW-данным сенсоров. Эти RAW-данные широко используются в устройствах съемки и могут обеспечить более точное восстановление изображений. При этом, существующие методы работают в пространстве sRGB и сталкиваются с проблемами высокой нагрузки вычислительных ресурсов, а также с риском потери качества при преобразовании из RAW в sRGB. Модель RDDM (RAW Domain Diffusion Model) предлагает решение этих проблем, направляясь на восстановление изображений непосредственно в RAW-домене. Это позволяет избежать проблемы потери качества при преобразовании и обеспечивает более точное восстановление. ## Метод RDDM — это модель, основанная на методе распространения (diffusion), которая восстанавливает цветные изображения непосредственно из данных RAW-сенсора. Она заменяет традиционную схему двух этапов: обработки изображений в пространстве sRGB и интерполяции. Ключевые компоненты RDDM: 1. **RAW-domain VAE (RVAE)** — вариационная автоэнкодерная модель, оптимизирующая закодированные представления в RAW-домене. 2. **Post Tone Processing (PTP)** — модуль, работающий в области RAW и sRGB, позволяющий обучать модель с учетом оптимизации изображений в обоих пространствах. 3. **Configurable Multi-Bayer (CMB) LoRA** — модуль, учитывающий различные шаблоны матриц сенсоров RAW, таких как RGGB, BGGR и другие. RDDM также использует синтетическую научную модель для генерации LQ-HQ пар (RAW-данных) из существующих данных sRGB, чтобы увеличить объем тренировочных данных. ## Результаты Использовались несколько датасетов, включая данные из съемок на разных устройствах, для оценки качества восстановления. Модель RDDM показала существенное улучшение в сравнении с другими моделями работающими в пространстве sRGB. RDDM демонстрирует высокую точность и реалистичность восстановленных изображений с меньшим количеством артефактов. Эксперименты показали, что RDDM превосходит текущие методы в следующих аспектах: - Уменьшение артефактов. - Улучшение фидбэка пользователей. - Повышение эффективности вычислений для RAW-данных. ## Значимость RDDM имеет широкие области применения, включая обработку изображений, съемку видео, реалистичные симуляции для VR/AR и другие сценарии, где качество восстановления изображений критично. В частности: - **Улучшение качества во

Abstract

We present the RAW domain diffusion model (RDDM), an end-to-end diffusion model that restores photo-realistic images directly from the sensor RAW data. While recent sRGB-domain diffusion methods achieve impressive results, they are caught in a dilemma between high fidelity and realistic generation. As these models process lossy sRGB inputs and neglect the accessibility of the sensor RAW images in many scenarios, e.g., in image and video capturing in edge devices, resulting in sub-optimal performance. RDDM bypasses this limitation by directly restoring images in the RAW domain, replacing the conventional two-stage image signal processing (ISP) + IR pipeline. However, a simple adaptation of pre-trained diffusion models to the RAW domain confronts the out-of-distribution (OOD) issues. To this end, we propose: (1) a RAW-domain VAE (RVAE) learning optimal latent representations, (2) a differentiable Post Tone Processing (PTP) module enabling joint RAW and sRGB space optimization. To compensate for the deficiency in the dataset, we develop a scalable degradation pipeline synthesizing RAW LQ-HQ pairs from existing sRGB datasets for large-scale training. Furthermore, we devise a configurable multi-bayer (CMB) LoRA module handling diverse RAW patterns such as RGGB, BGGR, etc. Extensive experiments demonstrate RDDM's superiority over state-of-the-art sRGB diffusion methods, yielding higher fidelity results with fewer artifacts.

Ссылки и действия