Veila: Panoramic LiDAR Generation from a Monocular RGB Image
2508.03690v1
cs.CV, cs.RO
2025-08-09
Авторы:
Youquan Liu, Lingdong Kong, Weidong Yang, Ao Liang, Jianxiong Gao, Yang Wu, Xiang Xu, Xin Li, Linfeng Li, Runnan Chen, Ben Fei
Резюме на русском
**Резюме**
Проблема. Реалистичная и управляемая генерация панорамных данных LiDAR из одного RGB-изображения является ключевой задачей для расширения возможностей 3D-перцепции в сегментах автономных транспортных систем и робототехники. Существующие методы либо не обеспечивают достаточного контроля за результатом, либо применяют текстовые сигналы для управления, которые не могут обеспечить точной спецификации пространственных признаков.
Решение. Мы предлагаем Veila — уникальную модель на основе диффузионного подхода, которая использует RGB-изображение в качестве условного сигнала для управляемой генерации панорамных данных LiDAR. Модель решает три основных проблемы: складывающиеся проблемы семантических и геометрических признаков в RGB, гашение геометрических модемов RGB и LiDAR, а также необходимость сохранения структурной согласованности в регионах, не перекрывающихся между RGB-изображением и LiDAR. Для этого Veila использует: механизм устойчивого управления по RGB-сигналу с адаптивным балансированием семантических и геометрических признаков, систему кросс-модального выравнивания для геометрического гармонического соответствия, а также механизм сохранения глобальной структурной выразительности.
Основные выводы. Модель Veila демонстрирует перекрытие стандартов по фидбэку по сравнению с текущими методами в трех огромных базах данных (nuScenes, SemanticKITTI и KITTI-Weather). Она также улучшает генетическую семантическую и геометрическую точность в сегментации LiDAR. Эта работа открывает новый путь для эффективного взаимодействия между RGB и LiDAR в сценариях машинного зрения.
Abstract
Realistic and controllable panoramic LiDAR data generation is critical for
scalable 3D perception in autonomous driving and robotics. Existing methods
either perform unconditional generation with poor controllability or adopt
text-guided synthesis, which lacks fine-grained spatial control. Leveraging a
monocular RGB image as a spatial control signal offers a scalable and low-cost
alternative, which remains an open problem. However, it faces three core
challenges: (i) semantic and depth cues from RGB are vary spatially,
complicating reliable conditioning generation; (ii) modality gaps between RGB
appearance and LiDAR geometry amplify alignment errors under noisy diffusion;
and (iii) maintaining structural coherence between monocular RGB and panoramic
LiDAR is challenging, particularly in non-overlap regions between images and
LiDAR. To address these challenges, we propose Veila, a novel conditional
diffusion framework that integrates: a Confidence-Aware Conditioning Mechanism
(CACM) that strengthens RGB conditioning by adaptively balancing semantic and
depth cues according to their local reliability; a Geometric Cross-Modal
Alignment (GCMA) for robust RGB-LiDAR alignment under noisy diffusion; and a
Panoramic Feature Coherence (PFC) for enforcing global structural consistency
across monocular RGB and panoramic LiDAR. Additionally, we introduce two
metrics, Cross-Modal Semantic Consistency and Cross-Modal Depth Consistency, to
evaluate alignment quality across modalities. Experiments on nuScenes,
SemanticKITTI, and our proposed KITTI-Weather benchmark demonstrate that Veila
achieves state-of-the-art generation fidelity and cross-modal consistency,
while enabling generative data augmentation that improves downstream LiDAR
semantic segmentation.
Ссылки и действия
Дополнительные ресурсы: