ArbiViewGen: Controllable Arbitrary Viewpoint Camera Data Generation for Autonomous Driving via Stable Diffusion Models
2508.05236v1
cs.CV
2025-08-09
Авторы:
Yatong Lan, Jingfeng Chen, Yiru Wang, Lei He
Резюме на русском
**Резюме**
В статье предлагается ArbiViewGen — первый фреймворк, реализующий контролируемую генерацию изображений с произвольных точек зрения для сцен проекции из автомобиля. Это решение адресует сложность генерирования данных для невиджутых видов с различными углами проекции, которые необходимы для продвижения в области автономного вождения. Новаторским вариантом является использование цепочки технологий: Feature-Aware Adaptive View Stitching (FAVS) для выравнивания изображений с разных камер и Cross-View Consistency Self-Supervised Learning (CVC-SSL) для сохранения точности изображений при синтезе. Использование только изображений из многокамерных систем и их поз, без развитных дополнительных сенсоров или глубинных карт, делает этот подход эффективным и практичным. Таким образом, ArbiViewGen открывает новый путь к точной генерации произвольных видов, значительно повышая возможности для автономных систем.
Abstract
Arbitrary viewpoint image generation holds significant potential for
autonomous driving, yet remains a challenging task due to the lack of
ground-truth data for extrapolated views, which hampers the training of
high-fidelity generative models. In this work, we propose Arbiviewgen, a novel
diffusion-based framework for the generation of controllable camera images from
arbitrary points of view. To address the absence of ground-truth data in unseen
views, we introduce two key components: Feature-Aware Adaptive View Stitching
(FAVS) and Cross-View Consistency Self-Supervised Learning (CVC-SSL). FAVS
employs a hierarchical matching strategy that first establishes coarse
geometric correspondences using camera poses, then performs fine-grained
alignment through improved feature matching algorithms, and identifies
high-confidence matching regions via clustering analysis. Building upon this,
CVC-SSL adopts a self-supervised training paradigm where the model reconstructs
the original camera views from the synthesized stitched images using a
diffusion model, enforcing cross-view consistency without requiring supervision
from extrapolated data. Our framework requires only multi-camera images and
their associated poses for training, eliminating the need for additional
sensors or depth maps. To our knowledge, Arbiviewgen is the first method
capable of controllable arbitrary view camera image generation in multiple
vehicle configurations.
Ссылки и действия
Дополнительные ресурсы: