InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts

2509.10813v1 cs.CV, cs.RO 2025-09-17
Авторы:

Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

Резюме на русском

## Контекст Модели Embodied AI значительно зависят от больших, симулируемых 3D-сцен, которые должны обеспечивать разнообразие и реалистичные макеты. Однако существующие данные имеют ограничения по масштабу и разнообразию, часто являются слишком "очищенными" (преимущественно содержат крупные предметы) или страдают от проблем, таких как коллизии объектов. В этой статье предлагается решение, основанное на создании мощного датасета InternScenes, который станет ключевым ресурсом для развития Embodied AI. ## Метод Датасет InternScenes был создан через интеграцию трех различных источников: реальных сканов, процедурно созданных сцен и сцен, созданных дизайнерами. Он включает примерно 40 000 сцен, 1,96 миллиона 3D-объектов и покрывает 15 различных сценарных типов и 288 классов объектов. Особое внимание уделено сохранению малых предметов, что позволяет получить реалистичные и сложные макеты, содержащие 41,5 объектов в среднем в каждом регионе. Выделенная процедура обработки данных обеспечивает simulatability (реализм симуляции), в том числе путем создания реплик реальных ситуаций в симуляторе, добавлением интерактивных объектов и решением проблем коллизий путем физических симуляций. ## Результаты Эксперименты показали, что данные InternScenes позволяют сформировать вызовы, которыми не сталкивалось другой доступной база данных. Два ключевых применения — генерация макетов сцен и поиск путей в точку-назначение — демонстрируют новые сложности и возможности, внедренные данными. Благодаря предложенной модели, модели Embodied AI могут быть обучены для работы в крупных, реалистичных сценах, что ранее не было возможно. ## Значимость Этот датасет открывает новые возможности для разработки моделей Embodied AI, таких как модели для создания и следования маршрутам в сложных, реалистичных сценах. Он также открывает пути для будущих исследований в области произвольного поведения в симуляторах. Открытый доступ к датасету, моделям и бенчмаркам способствует совместному развитию сообщества в области Embodied AI. ## Выводы InternScenes — это первый датасет, который объединяет реальные сканы, процедурные генераторы и дизайнерские сцены, создавая сцены с реалистичными макетами и 1,96 миллионом объектов. Он успешно демонстрирует способность обучения моделей сложных задач Embodied AI в полностью симулируемых сценах. Дальнейшие исследования будут направлены на расширение моделей и применения в различных сценариях Embodied AI.

Abstract

The advancement of Embodied AI heavily relies on large-scale, simulatable 3D scene datasets characterized by scene diversity and realistic layouts. However, existing datasets typically suffer from limitations in data scale or diversity, sanitized layouts lacking small items, and severe object collisions. To address these shortcomings, we introduce \textbf{InternScenes}, a novel large-scale simulatable indoor scene dataset comprising approximately 40,000 diverse scenes by integrating three disparate scene sources, real-world scans, procedurally generated scenes, and designer-created scenes, including 1.96M 3D objects and covering 15 common scene types and 288 object classes. We particularly preserve massive small items in the scenes, resulting in realistic and complex layouts with an average of 41.5 objects per region. Our comprehensive data processing pipeline ensures simulatability by creating real-to-sim replicas for real-world scans, enhances interactivity by incorporating interactive objects into these scenes, and resolves object collisions by physical simulations. We demonstrate the value of InternScenes with two benchmark applications: scene layout generation and point-goal navigation. Both show the new challenges posed by the complex and realistic layouts. More importantly, InternScenes paves the way for scaling up the model training for both tasks, making the generation and navigation in such complex scenes possible. We commit to open-sourcing the data, models, and benchmarks to benefit the whole community.

Ссылки и действия