Robust Single-Stage Fully Sparse 3D Object Detection via Detachable Latent Diffusion

2508.03252v1 cs.CV 2025-08-09

Авторы:

Wentao Qu, Guofeng Mei, Jing Wang, Yujiao Wu, Xiaoshui Huang, Liang Xiao

Резюме на русском

Задача 3D-обнаружения объектов чрезвычайно важна в многих приложениях, но существующие методы часто страдают от низкой эффективности и грубости в репрезентации сцены. В статье предлагается RSDNet — модель, основанная на Denoising Diffusion Probabilistic Models (DDPMs), но с многоуровневым подходом к нозе и денойзингу. Она использует легковесные денойзинговые сети для изучения сцены в локальных функциональных пространствах, что позволяет ей эффективно оценивать распределения в различных уровнях помех. Благодаря инновационной формулировке DDPM-механизмов, RSDNet может строить многотиповые и многоуровневые шумы и признаки, улучшая точность и устойчивость. Добавленная поддержка понимания границ и форм объектов устраняет проблему «теряемого центрального признака» в спарсе. Интеллектуальное дизайн детачируемого денойзингового кадра позволяет RSDNet работать в единоразовом режиме на прямой сцене, что делает её быстрее и эффективнее. Эксперименты показали, что RSDNet превосходит существующие методы, достигая новых результатов в 3D-обнаружении.

Abstract

Denoising Diffusion Probabilistic Models (DDPMs) have shown success in robust 3D object detection tasks. Existing methods often rely on the score matching from 3D boxes or pre-trained diffusion priors. However, they typically require multi-step iterations in inference, which limits efficiency. To address this, we propose a \textbf{R}obust single-stage fully \textbf{S}parse 3D object \textbf{D}etection \textbf{Net}work with a Detachable Latent Framework (DLF) of DDPMs, named RSDNet. Specifically, RSDNet learns the denoising process in latent feature spaces through lightweight denoising networks like multi-level denoising autoencoders (DAEs). This enables RSDNet to effectively understand scene distributions under multi-level perturbations, achieving robust and reliable detection. Meanwhile, we reformulate the noising and denoising mechanisms of DDPMs, enabling DLF to construct multi-type and multi-level noise samples and targets, enhancing RSDNet robustness to multiple perturbations. Furthermore, a semantic-geometric conditional guidance is introduced to perceive the object boundaries and shapes, alleviating the center feature missing problem in sparse representations, enabling RSDNet to perform in a fully sparse detection pipeline. Moreover, the detachable denoising network design of DLF enables RSDNet to perform single-step detection in inference, further enhancing detection efficiency. Extensive experiments on public benchmarks show that RSDNet can outperform existing methods, achieving state-of-the-art detection.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Robust Single-Stage Fully Sparse 3D Object Detection via Detachable Latent Diffusion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reason...

VOST-SGG: VLM-Aided One-Stage Spatio-Temporal Scene Graph Generation

VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Seq...

HuPrior3R: Incorporating Human Priors for Better 3D Dynamic Reconstruction from ...

RAVE: Rate-Adaptive Visual Encoding for 3D Gaussian Splatting

Навигация