ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting
2509.16552v1
cs.CV, cs.RO
2025-09-24
Авторы:
Xiaoyang Yan, Muleilan Pei, Shaojie Shen
Резюме на русском
#### Контекст
Механизмы понимания сцены в реальном времени являются ключевым компонентом автономных систем, таких как роботы и автомобили. Одним из важных аспектов понимания сцены является прогнозирование трехмерной оккупантности (3D occupancy prediction), которое позволяет системам визуально оценивать пространство вокруг себя. Несмотря на то, что существуют методы, основанные на гауссовых представлениях для решения этой задачи, они сталкиваются с проблемами, такими как недостаточное взаимодействие между разными представлениями, а также недостаточная консистентность в процессе расчета в течение времени. Эти ограничения влияют на точность и надежность решений в сценах, где важно учитывать динамику и пространственное распределение объектов.
#### Метод
Мы предлагаем Spatial-Temporal Gaussian Splatting (ST-GS) — новую архитектуру для решения задачи 3D occupancy prediction. Архитектура ST-GS основывается на идеях гауссовых представлений, но включает в себя две основные усовершенствования: (1) **двухрежимный механизм внимательности**, который усиливает пространственные взаимодействия между разными представлениями, и (2) **геометрически ориентированная схема фу mergersion**, которая использует исторический контекст для улучшения продолжительности в сцене. Основой ST-GS лежит особая стратегия агрегации, которая позволяет гауссовым моделям более эффективно обрабатывать данные, имеющиеся в разных визуальных режимах.
#### Результаты
Мы проверили ST-GS на б BENCHMARK nuScenes для прогнозирования трехмерной оккупантности. Результаты показали, что наша модель не только превосходит существующие методы на основе гауссовых представлений, но и демонстрирует значительно более высокую консистентность в процессе временного прогнозирования. Эксперименты также доказали, что ST-GS способна эффективно решать задачи, требующие точного взаимодействия с объектами в пространстве и времени, что является ключевым для автономных систем.
#### Значимость
ST-GS может применяться в различных областях, в том числе в автономных системах, виртуальной реальности, и даже в играх. Особый потенциал открывается в сценах, где необходимо учитывать динамику объектов и корректно оценивать их пространственную оккупантность. Наша модель предоставляет значительные преимущества в точности и консистентности, что может улучшить качество прогнозов и снизить риски в автономных системах.
#### Выводы
Мы представили Spatial-Temporal Gaussian Splatting (ST-GS), продемонстрировав ее эффективность в 3D occupancy prediction. Наши результаты показали, что ST-GS превосходит существующие методы, предоставляя более высокую точность и консистентность. Мы планируем даль
Abstract
3D occupancy prediction is critical for comprehensive scene understanding in
vision-centric autonomous driving. Recent advances have explored utilizing 3D
semantic Gaussians to model occupancy while reducing computational overhead,
but they remain constrained by insufficient multi-view spatial interaction and
limited multi-frame temporal consistency. To overcome these issues, in this
paper, we propose a novel Spatial-Temporal Gaussian Splatting (ST-GS) framework
to enhance both spatial and temporal modeling in existing Gaussian-based
pipelines. Specifically, we develop a guidance-informed spatial aggregation
strategy within a dual-mode attention mechanism to strengthen spatial
interaction in Gaussian representations. Furthermore, we introduce a
geometry-aware temporal fusion scheme that effectively leverages historical
context to improve temporal continuity in scene completion. Extensive
experiments on the large-scale nuScenes occupancy prediction benchmark showcase
that our proposed approach not only achieves state-of-the-art performance but
also delivers markedly better temporal consistency compared to existing
Gaussian-based methods.
Ссылки и действия
Дополнительные ресурсы: