A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image
2508.05950v1
cs.CV, cs.AI
2025-08-12
Авторы:
Yanxing Liang, Yinghui Wang, Jinlong Yang, Wei Li
Резюме на русском
#### Контекст
Голографические системы, использующие диффузионные методы для получения нормалей из одного изображения, становятся важной областью исследований в сфере машинного зрения и виртуальной реальности. Однако существуют значительные проблемы, такие как недостаточная информация о пространственных измерениях, неполное моделирование взаимодействия света с поверхностью и недостаточная точность в реконструкции трёхмерных геометрических форм. Эти проблемы приводят к конфликту нормалей при многократном просмотре и затрудняют обучение сетей без использования больших объёмов данных с аннотациями нормалей.
#### Метод
Предлагаемый подход, SINGAD (Self-supervised framework from a single Image for Normal estimation via 3D GAussian splatting guided Diffusion), основан на интеграции физически обоснованного моделирования взаимодействия света и диффузионной модели с разными масштабами. Он включает в себя дифференцируемую 3D-репроекцию для самостоятельного обучения, которая позволяет оптимизировать нормали непосредственно из 3D-геометрических ошибок. Основные моменты:
- Репараметризация 3DGS для построения геометрически консистентных фичей с учётом законов светопропускания.
- Модуль для скрещивания доменных признаков для контроля нормалей с помощью условной дифференцируемой модели.
- Репроекционная стратегия для самостоятельного улучшения модели.
#### Результаты
На Google Scanned Objects dataset, SINGAD показал существенное превосходство по нескольким метрикам в сравнении с алгоритмами стандартного уровня. Он достиг высокой точности нормалей и устранил конфликты при многократном просмотре, что достигнуто благодаря использованию трёхмерной модели Гаусса и различным оптимизируемым нормали. Это дало возможность улучшить качество генерации нормалей в сравнении с другими диффузионными подходами.
#### Значимость
Предложенный подход может применяться в сферах, таких как виртуальная реальность, игровые движки, а также для реконструкции трёхмерных моделей на основе одного изображения. Он предлагает выгоды в скорости обучения, уменьшает зависимость от предобученных моделей и улучшает точность нормалей. Будущие исследования могут сфокусироваться на улучшении модели применения в тяжёлых условиях, таких как низкоконтрастные изображения или нестандартные предметы.
#### Выводы
Предложенный SINGAD-подход демонстрирует перспективность в самостоятельном обучении нормалей из одного изображения. Он решает проблему недостатка данных и геометрической непостоянствой в диффузионных подходах, достигая точности и консистентности, ранее не достигнутой. Будущие исследования бу
Abstract
The lack of spatial dimensional information remains a challenge in normal
estimation from a single image. Recent diffusion-based methods have
demonstrated significant potential in 2D-to-3D implicit mapping, they rely on
data-driven statistical priors and miss the explicit modeling of light-surface
interaction, leading to multi-view normal direction conflicts. Moreover, the
discrete sampling mechanism of diffusion models causes gradient discontinuity
in differentiable rendering reconstruction modules, preventing 3D geometric
errors from being backpropagated to the normal generation network, thereby
forcing existing methods to depend on dense normal annotations. This paper
proposes SINGAD, a novel Self-supervised framework from a single Image for
Normal estimation via 3D GAussian splatting guided Diffusion. By integrating
physics-driven light-interaction modeling and a differentiable rendering-based
reprojection strategy, our framework directly converts 3D geometric errors into
normal optimization signals, solving the challenges of multi-view geometric
inconsistency and data dependency. Specifically, the framework constructs a
light-interaction-driven 3DGS reparameterization model to generate multi-scale
geometric features consistent with light transport principles, ensuring
multi-view normal consistency. A cross-domain feature fusion module is designed
within a conditional diffusion model, embedding geometric priors to constrain
normal generation while maintaining accurate geometric error propagation.
Furthermore, a differentiable 3D reprojection loss strategy is introduced for
self-supervised optimization that minimizes geometric error between the
reconstructed and input image, eliminating dependence on annotated normal
datasets. Quantitative evaluations on the Google Scanned Objects dataset
demonstrate that our method outperforms state-of-the-art approaches across
multiple metrics.
Ссылки и действия
Дополнительные ресурсы: