A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding
2508.05064v1
cs.GR, cs.CL, cs.CV
2025-08-09
Авторы:
Mahmoud Chick Zaouali, Todd Charter, Yehor Karpichev, Brandon Haworth, Homayoun Najjjaran
Резюме на русском
**Резюме**
Последние годы технологии 3D-сценобразования, такие как Neural Radiance Fields (NeRF) и Gaussian Splatting, получили большое распространение в области реального времени в сферах визуализации, разработки роботов и создания интерактивных контента. Однако их интеграция с бо LLM и языковыми эмбеддингами открыла новые возможности в области текстовоориентированной генерации, редактирования и семантического понимания сцен. Данная статья предлагает структурированный обзор нынешних исследований, сочетающих языковые модели с 3D-гауссовым разбросом, охватывая теоретические основы, методы интеграции и реальности применений. Основные недостатки, такие как вычислительные блоки, проблемы генерализируемости и отсутствие семантически аннотированных 3D-данных на языке, также выделены. В заключении авторы выделяют перспективы исследований в области языковоориентированного понимания 3D-сцен, используя Gaussian Splatting.
Abstract
Gaussian Splatting has rapidly emerged as a transformative technique for
real-time 3D scene representation, offering a highly efficient and expressive
alternative to Neural Radiance Fields (NeRF). Its ability to render complex
scenes with high fidelity has enabled progress across domains such as scene
reconstruction, robotics, and interactive content creation. More recently, the
integration of Large Language Models (LLMs) and language embeddings into
Gaussian Splatting pipelines has opened new possibilities for text-conditioned
generation, editing, and semantic scene understanding. Despite these advances,
a comprehensive overview of this emerging intersection has been lacking. This
survey presents a structured review of current research efforts that combine
language guidance with 3D Gaussian Splatting, detailing theoretical
foundations, integration strategies, and real-world use cases. We highlight key
limitations such as computational bottlenecks, generalizability, and the
scarcity of semantically annotated 3D Gaussian data and outline open challenges
and future directions for advancing language-guided 3D scene understanding
using Gaussian Splatting.
Ссылки и действия
Дополнительные ресурсы: