A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image

2508.05950v1 cs.CV, cs.AI 2025-08-12

Авторы:

Yanxing Liang, Yinghui Wang, Jinlong Yang, Wei Li

Резюме на русском

#### Контекст Голографические системы, использующие диффузионные методы для получения нормалей из одного изображения, становятся важной областью исследований в сфере машинного зрения и виртуальной реальности. Однако существуют значительные проблемы, такие как недостаточная информация о пространственных измерениях, неполное моделирование взаимодействия света с поверхностью и недостаточная точность в реконструкции трёхмерных геометрических форм. Эти проблемы приводят к конфликту нормалей при многократном просмотре и затрудняют обучение сетей без использования больших объёмов данных с аннотациями нормалей. #### Метод Предлагаемый подход, SINGAD (Self-supervised framework from a single Image for Normal estimation via 3D GAussian splatting guided Diffusion), основан на интеграции физически обоснованного моделирования взаимодействия света и диффузионной модели с разными масштабами. Он включает в себя дифференцируемую 3D-репроекцию для самостоятельного обучения, которая позволяет оптимизировать нормали непосредственно из 3D-геометрических ошибок. Основные моменты: - Репараметризация 3DGS для построения геометрически консистентных фичей с учётом законов светопропускания. - Модуль для скрещивания доменных признаков для контроля нормалей с помощью условной дифференцируемой модели. - Репроекционная стратегия для самостоятельного улучшения модели. #### Результаты На Google Scanned Objects dataset, SINGAD показал существенное превосходство по нескольким метрикам в сравнении с алгоритмами стандартного уровня. Он достиг высокой точности нормалей и устранил конфликты при многократном просмотре, что достигнуто благодаря использованию трёхмерной модели Гаусса и различным оптимизируемым нормали. Это дало возможность улучшить качество генерации нормалей в сравнении с другими диффузионными подходами. #### Значимость Предложенный подход может применяться в сферах, таких как виртуальная реальность, игровые движки, а также для реконструкции трёхмерных моделей на основе одного изображения. Он предлагает выгоды в скорости обучения, уменьшает зависимость от предобученных моделей и улучшает точность нормалей. Будущие исследования могут сфокусироваться на улучшении модели применения в тяжёлых условиях, таких как низкоконтрастные изображения или нестандартные предметы. #### Выводы Предложенный SINGAD-подход демонстрирует перспективность в самостоятельном обучении нормалей из одного изображения. Он решает проблему недостатка данных и геометрической непостоянствой в диффузионных подходах, достигая точности и консистентности, ранее не достигнутой. Будущие исследования бу

Abstract

The lack of spatial dimensional information remains a challenge in normal estimation from a single image. Recent diffusion-based methods have demonstrated significant potential in 2D-to-3D implicit mapping, they rely on data-driven statistical priors and miss the explicit modeling of light-surface interaction, leading to multi-view normal direction conflicts. Moreover, the discrete sampling mechanism of diffusion models causes gradient discontinuity in differentiable rendering reconstruction modules, preventing 3D geometric errors from being backpropagated to the normal generation network, thereby forcing existing methods to depend on dense normal annotations. This paper proposes SINGAD, a novel Self-supervised framework from a single Image for Normal estimation via 3D GAussian splatting guided Diffusion. By integrating physics-driven light-interaction modeling and a differentiable rendering-based reprojection strategy, our framework directly converts 3D geometric errors into normal optimization signals, solving the challenges of multi-view geometric inconsistency and data dependency. Specifically, the framework constructs a light-interaction-driven 3DGS reparameterization model to generate multi-scale geometric features consistent with light transport principles, ensuring multi-view normal consistency. A cross-domain feature fusion module is designed within a conditional diffusion model, embedding geometric priors to constrain normal generation while maintaining accurate geometric error propagation. Furthermore, a differentiable 3D reprojection loss strategy is introduced for self-supervised optimization that minimizes geometric error between the reconstructed and input image, eliminating dependence on annotated normal datasets. Quantitative evaluations on the Google Scanned Objects dataset demonstrate that our method outperforms state-of-the-art approaches across multiple metrics.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация