PreSem-Surf: RGB-D Surface Reconstruction with Progressive Semantic Modeling and SG-MLP Pre-Rendering Mechanism

2508.13228v1 cs.GR, cs.AI, cs.CV, eess.IV 2025-08-21
Авторы:

Yuyan Ye, Hang Xu, Yanghang Huang, Jiali Huang, Qian Weng

Резюме на русском

## Контекст Современные технологии в области распознавания объектов и строительства трехмерных моделей с сенсорных данных RGB-D становятся все более востребованными в приложениях, таких как видеореалистичные игры, виртуальная реальность и проектирование внутренних пространств. Однако существуют проблемы, связанные с неэффективностью, долгой обработкой и недостаточной точностью существующих методов. Эти приложения требуют методов, которые могут быстро и точно восстановить трехмерные сцены, учитывая как цветные изображения, так и глубинные данные, а также информацию о семантической принадлежности объектов. Таким образом, существует необходимость в развитии эффективных методов восстановления трехмерных сцен, которые могут быстро обрабатывать данные и поддерживать высокую точность. ## Метод Метод PreSem-Surf основывается на NeRF-фреймворке и предлагает расширенный подход к восстановлению трехмерных сцен. Он использует RGB-D потоки данных и интегрирует RGB-, depth- и semantic-данные для улучшения восстановления. Метод включает прогрессивную семантическую модель для точного извлечения семантической информации на разных уровнях. Основной инновацией является интеграция SG-MLP (Structured Gated Multi-Layer Perceptron) вместе с PR-MLP (Preconditioning Multilayer Perceptron) для эффективного предварительного ранжирования voxel-данных. Это позволяет модели быстрее отфильтровать шум и улучшить точность распознавания локальных деталей. SG-MLP и PR-MLP работают вместе для улучшения процесса предварительной обработки данных и повышения общей эффективности. ## Результаты Результаты экспериментов проводились на семи синтетических сценах с использованием шести разных метрик (C-L1, F-score, IoU, NC, Accuracy, Completeness). Результаты показали, что PreSem-Surf показал лучшие результаты в C-L1, F-score и IoU, показав высокую точность восстановления поверхностей. Он также показал конкурентные результаты в NC, Accuracy и Completeness, демонстрируя широкую применимость и эффективность в различных сценах. Эти результаты подтверждают то, что PreSem-Surf эффективен в быстром восстановлении трехмерных сцен из RGB-D потоков данных. ## Значимость Метод PreSem-Surf может быть применен в различных областях, таких как виртуальная реальность, видеоигры, проектирование интерьеров и архитектура. Он предоставляет высокую точность и быструю обработку данных, что делает его идеальным для использования в реальном времени. Благодаря использованию семантической информации, PreSem-Surf также обеспечивает лучшее понимание сцены, что может использоваться для улучшения дальнейшего визуального моделирования и анализа. Помимо этого, способность модели быстро отфиль

Abstract

This paper proposes PreSem-Surf, an optimized method based on the Neural Radiance Field (NeRF) framework, capable of reconstructing high-quality scene surfaces from RGB-D sequences in a short time. The method integrates RGB, depth, and semantic information to improve reconstruction performance. Specifically, a novel SG-MLP sampling structure combined with PR-MLP (Preconditioning Multilayer Perceptron) is introduced for voxel pre-rendering, allowing the model to capture scene-related information earlier and better distinguish noise from local details. Furthermore, progressive semantic modeling is adopted to extract semantic information at increasing levels of precision, reducing training time while enhancing scene understanding. Experiments on seven synthetic scenes with six evaluation metrics show that PreSem-Surf achieves the best performance in C-L1, F-score, and IoU, while maintaining competitive results in NC, Accuracy, and Completeness, demonstrating its effectiveness and practical applicability.

Ссылки и действия