ArbiViewGen: Controllable Arbitrary Viewpoint Camera Data Generation for Autonomous Driving via Stable Diffusion Models

2508.05236v1 cs.CV 2025-08-09

Авторы:

Yatong Lan, Jingfeng Chen, Yiru Wang, Lei He

Резюме на русском

**Резюме** В статье предлагается ArbiViewGen — первый фреймворк, реализующий контролируемую генерацию изображений с произвольных точек зрения для сцен проекции из автомобиля. Это решение адресует сложность генерирования данных для невиджутых видов с различными углами проекции, которые необходимы для продвижения в области автономного вождения. Новаторским вариантом является использование цепочки технологий: Feature-Aware Adaptive View Stitching (FAVS) для выравнивания изображений с разных камер и Cross-View Consistency Self-Supervised Learning (CVC-SSL) для сохранения точности изображений при синтезе. Использование только изображений из многокамерных систем и их поз, без развитных дополнительных сенсоров или глубинных карт, делает этот подход эффективным и практичным. Таким образом, ArbiViewGen открывает новый путь к точной генерации произвольных видов, значительно повышая возможности для автономных систем.

Abstract

Arbitrary viewpoint image generation holds significant potential for autonomous driving, yet remains a challenging task due to the lack of ground-truth data for extrapolated views, which hampers the training of high-fidelity generative models. In this work, we propose Arbiviewgen, a novel diffusion-based framework for the generation of controllable camera images from arbitrary points of view. To address the absence of ground-truth data in unseen views, we introduce two key components: Feature-Aware Adaptive View Stitching (FAVS) and Cross-View Consistency Self-Supervised Learning (CVC-SSL). FAVS employs a hierarchical matching strategy that first establishes coarse geometric correspondences using camera poses, then performs fine-grained alignment through improved feature matching algorithms, and identifies high-confidence matching regions via clustering analysis. Building upon this, CVC-SSL adopts a self-supervised training paradigm where the model reconstructs the original camera views from the synthesized stitched images using a diffusion model, enforcing cross-view consistency without requiring supervision from extrapolated data. Our framework requires only multi-camera images and their associated poses for training, eliminating the need for additional sensors or depth maps. To our knowledge, Arbiviewgen is the first method capable of controllable arbitrary view camera image generation in multiple vehicle configurations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ArbiViewGen: Controllable Arbitrary Viewpoint Camera Data Generation for Autonomous Driving via Stable Diffusion Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация