ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

2509.16552v1 cs.CV, cs.RO 2025-09-24
Авторы:

Xiaoyang Yan, Muleilan Pei, Shaojie Shen

Резюме на русском

#### Контекст Механизмы понимания сцены в реальном времени являются ключевым компонентом автономных систем, таких как роботы и автомобили. Одним из важных аспектов понимания сцены является прогнозирование трехмерной оккупантности (3D occupancy prediction), которое позволяет системам визуально оценивать пространство вокруг себя. Несмотря на то, что существуют методы, основанные на гауссовых представлениях для решения этой задачи, они сталкиваются с проблемами, такими как недостаточное взаимодействие между разными представлениями, а также недостаточная консистентность в процессе расчета в течение времени. Эти ограничения влияют на точность и надежность решений в сценах, где важно учитывать динамику и пространственное распределение объектов. #### Метод Мы предлагаем Spatial-Temporal Gaussian Splatting (ST-GS) — новую архитектуру для решения задачи 3D occupancy prediction. Архитектура ST-GS основывается на идеях гауссовых представлений, но включает в себя две основные усовершенствования: (1) **двухрежимный механизм внимательности**, который усиливает пространственные взаимодействия между разными представлениями, и (2) **геометрически ориентированная схема фу mergersion**, которая использует исторический контекст для улучшения продолжительности в сцене. Основой ST-GS лежит особая стратегия агрегации, которая позволяет гауссовым моделям более эффективно обрабатывать данные, имеющиеся в разных визуальных режимах. #### Результаты Мы проверили ST-GS на б BENCHMARK nuScenes для прогнозирования трехмерной оккупантности. Результаты показали, что наша модель не только превосходит существующие методы на основе гауссовых представлений, но и демонстрирует значительно более высокую консистентность в процессе временного прогнозирования. Эксперименты также доказали, что ST-GS способна эффективно решать задачи, требующие точного взаимодействия с объектами в пространстве и времени, что является ключевым для автономных систем. #### Значимость ST-GS может применяться в различных областях, в том числе в автономных системах, виртуальной реальности, и даже в играх. Особый потенциал открывается в сценах, где необходимо учитывать динамику объектов и корректно оценивать их пространственную оккупантность. Наша модель предоставляет значительные преимущества в точности и консистентности, что может улучшить качество прогнозов и снизить риски в автономных системах. #### Выводы Мы представили Spatial-Temporal Gaussian Splatting (ST-GS), продемонстрировав ее эффективность в 3D occupancy prediction. Наши результаты показали, что ST-GS превосходит существующие методы, предоставляя более высокую точность и консистентность. Мы планируем даль

Abstract

3D occupancy prediction is critical for comprehensive scene understanding in vision-centric autonomous driving. Recent advances have explored utilizing 3D semantic Gaussians to model occupancy while reducing computational overhead, but they remain constrained by insufficient multi-view spatial interaction and limited multi-frame temporal consistency. To overcome these issues, in this paper, we propose a novel Spatial-Temporal Gaussian Splatting (ST-GS) framework to enhance both spatial and temporal modeling in existing Gaussian-based pipelines. Specifically, we develop a guidance-informed spatial aggregation strategy within a dual-mode attention mechanism to strengthen spatial interaction in Gaussian representations. Furthermore, we introduce a geometry-aware temporal fusion scheme that effectively leverages historical context to improve temporal continuity in scene completion. Extensive experiments on the large-scale nuScenes occupancy prediction benchmark showcase that our proposed approach not only achieves state-of-the-art performance but also delivers markedly better temporal consistency compared to existing Gaussian-based methods.

Ссылки и действия