IDCNet: Guided Video Diffusion for Metric-Consistent RGBD Scene Generation with Precise Camera Control
2508.04147v1
cs.CV
2025-08-09
Авторы:
Lijuan Liu, Wenfa Li, Dongbo Zhang, Shuo Wang, Shaohui Jiao
Резюме на русском
**Резюме**
Существуют многочисленные подходы к синтезу RGB-D видеопоследовательностей, но многие из них недостаточно учитывают взаимосвязь между RGB и depth, что приводит к неточностям в геометрическом анализе. IDC-Net (Image-Depth Consistency Network) — это новая архитектура, призванная решить эту проблему. Она предлагает унифицированную геометрически осведомленную модель, которая одновременно синтезирует RGB- и depth-кадры, учитывая их геометрическую консистентность. Для обучения данной модели разработан качественный датасет с метрическими RGB-D последовательностями и точными позициями камеры. Особенностью IDC-Net является использование геометрического transformer-блока, обеспечивающего тонкую регулировку камеры в генерируемых последовательностях. Эксперименты показали, что IDC-Net превосходит состояние техники по качеству изображений (14.9% за абсолютные значения) и геометрической консистентности. Данные последовательности могут быть использованы непосредственно в задачах 3D-реконструкции, что демонстрирует практическую полезность разработанного подхода.
Abstract
We present IDC-Net (Image-Depth Consistency Network), a novel framework
designed to generate RGB-D video sequences under explicit camera trajectory
control. Unlike approaches that treat RGB and depth generation separately,
IDC-Net jointly synthesizes both RGB images and corresponding depth maps within
a unified geometry-aware diffusion model. The joint learning framework
strengthens spatial and geometric alignment across frames, enabling more
precise camera control in the generated sequences. To support the training of
this camera-conditioned model and ensure high geometric fidelity, we construct
a camera-image-depth consistent dataset with metric-aligned RGB videos, depth
maps, and accurate camera poses, which provides precise geometric supervision
with notably improved inter-frame geometric consistency. Moreover, we introduce
a geometry-aware transformer block that enables fine-grained camera control,
enhancing control over the generated sequences. Extensive experiments show that
IDC-Net achieves improvements over state-of-the-art approaches in both visual
quality and geometric consistency of generated scene sequences. Notably, the
generated RGB-D sequences can be directly feed for downstream 3D Scene
reconstruction tasks without extra post-processing steps, showcasing the
practical benefits of our joint learning framework. See more at
https://idcnet-scene.github.io.
Ссылки и действия
Дополнительные ресурсы: