Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding

2509.16721v1 cs.CV, cs.AI, cs.RO 2025-09-24

Авторы:

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang

Резюме на русском

## Контекст В последние годы в области искусственного интеллекта растет интерес к пониманию трехмерных сцен (3D scene understanding), которое является ключевым для развития эмбедидных систем искусственного интеллекта. Требуется не только распознавать объекты, но и понимать их свойства, отношения и взаимодействия в пространстве. Однако существующие методы, ориентированные на 2D изображения, сталкиваются с трудностями при переходе к 3D-сценам, из-за более сложной структуры данных и отсутствия больших 3D-датасетов для обучения. Это приводит к ограниченности моделей в понимании сложных пространственных структур и аффордансов. Целью данного исследования является развитие рам framworkа, который автоматически парсит 3D-сцены в текстовые описания, чтобы обеспечить общий подход к пониманию трехмерного пространства через естественный язык. ## Метод Текст-Scene (Text-Scene) — это фреймворк, который автоматически парсит 3D-сцены в текстовые описания. Он включает два основных этапа. В первом этапе используется геометрический анализ для выявления объектов и их атрибутов, а также для выявления пространственных отношений между ними. Во втором этапе используется Multimodal Large Language Model (MLLM) для генерации четкого и понятного текста, охватывающего объекты, их характеристики и пространственные связи. Фреймворк использует как геометрические данные 3D-сцен, так и языковые модели для создания полных и четких описаний. Эта структура позволяет связать трехмерную сцену с её языковым представлением, не требуя участия человека в процессе. ## Результаты Для оценки эффективности Text-Scene проведены эксперименты на нескольких 3D-бенчмарках. Модель производит текстовые описания, которые включают объектные атрибуты, свойства, отношения и другие характеристики. Эти описания показали высокую точность и полноту при сравнении с другими подходами. Также была проведена оценка возможности применения полученных описаний в задачах планирования (датасет InPlan3D), где Text-Scene показала свою способность помочь моделям MLLM в решении задач, связанных с трехмерным пространством. ## Значимость Текст-Scene предлагает новый подход к 3D scene understanding, который может быть применен в различных областях, таких как виртуальная и реальность, автоматизация производств, интерактивные системы и другие ситуации, где необходимо понимание пространства. Основное преимущество этого фреймворка заключается в том, что он может автоматически сгенерировать понятные описания 3D-сцен, что позволяет улучшить взаимодействие систем с трехмерными средами. Развитие таких технологий может иметь значите

Abstract

Enabling agents to understand and interact with complex 3D scenes is a fundamental challenge for embodied artificial intelligence systems. While Multimodal Large Language Models (MLLMs) have achieved significant progress in 2D image understanding, extending such capabilities to 3D scenes remains difficult: 1) 3D environment involves richer concepts such as spatial relationships, affordances, physics, layout, and so on, 2) the absence of large-scale 3D vision-language datasets has posed a significant obstacle. In this paper, we introduce Text-Scene, a framework that automatically parses 3D scenes into textual descriptions for scene understanding. Given a 3D scene, our model identifies object attributes and spatial relationships, and then generates a coherent summary of the whole scene, bridging the gap between 3D observation and language without requiring human-in-the-loop intervention. By leveraging both geometric analysis and MLLMs, Text-Scene produces descriptions that are accurate, detailed, and human-interpretable, capturing object-level details and global-level context. Experimental results on benchmarks demonstrate that our textual parses can faithfully represent 3D scenes and benefit downstream tasks. To evaluate the reasoning capability of MLLMs, we present InPlan3D, a comprehensive benchmark for 3D task planning, consisting of 3174 long-term planning tasks across 636 indoor scenes. We emphasize clarity and accessibility in our approach, aiming to make 3D scene content understandable through language. Code and datasets will be released.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Real-Time On-the-Go Annotation Framework Using YOLO for Automated Dataset Genera...

MTR-VP: Towards End-to-End Trajectory Planning through Context-Driven Image Enco...

Describe Anything Anywhere At Any Moment

Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embod...

SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizo...

Навигация