LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

2509.05263v2 cs.AI, cs.CV, cs.LG 2025-09-09

Авторы:

Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Yenan Lin, Hao Jiang, Kang Chen, Shuang Qiu

Резюме на русском

## Контекст Развитие 3D-моделей, имитирующих реальные ситуации, стало вызовом для современных исследований. Эти модели применяются в областях, таких как обеспечение искусственного интеллекта, самостоятельное вождение автомобилей, развлекательные продукты и другие. Более реалистичная симуляция, основанная на точной физике, может существенно снизить проблему разницы между симуляцией и реальностью, а также облегчить сбор информации о реальном мире. Традиционные ручные методы моделирования позволили создавать виртуальные 3D-сцены, однако современные подходы основываются на машинном обучении, которое способно генерировать 3D-миры на основе пользовательских инструкций. Целью данного исследования является описание LatticeWorld, инновационного фреймворка для создания динамичных 3D-миров, который объединяет легкие легковесные легковесные легковесные лэнгвидж модели (LLaMA-2-7B) и промышленно-классные рендеринговые системы (например, Unreal Engine 5). Он принимает текстовые описания и визуальные инструкции в качестве мультимодальных входных данных и генерирует большие, сложные миры с динамическими агентами, в том числе с высоким качеством визуализации и физических симуляций. ## Метод LatticeWorld предлагает интеграцию легковесных легковесных легковесных моделей с высококачественными рендеринговыми технологиями. Основная архитетктура фреймворка основывается на трех основных компонентах: (1) легковесная модель языка (LLaMA-2-7B) для обработки текстовых и визуальных входных данных, (2) промышленного рендеринга Unreal Engine 5 для динамического симулирования физики и (3) сложной архитектуры обработки мультимодальных данных, что позволяет генерировать подробные 3D-сцены. Метод предполагает начальную инициализацию сцены на основе текстовых инструкций, затем последовательное уточнение модели с использованием визуальных данных. Это позволяет создавать динамические интерактивные миры с высокой точностью визуализации и непосредственным взаимодействием с агентами. ## Результаты Используя этот подход, LatticeWorld был протестирован на широком спектре задач, включая генерацию сцен с высоким разрешением, мультиагентных интеракций и реалистичных физических симуляций. Конкретные эксперименты показали, что LatticeWorld достигает существенно более высокого уровня точности в сценах с разрешением $90\times$, сравнив с традиционными методами генерирования 3D-сцен. Эксперименты также показали намного вышу качество визуализации и возможность сжатых субъективных инструкций. Эти результаты подтверждают возможно

Abstract

Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a $90\times$ increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language M...

Guaranteed Optimal Compositional Explanations for Neurons

Fluid Grey 2: How Well Does Generative Adversarial Network Learn Deeper Topology...

KANGURA: Kolmogorov-Arnold Network-Based Geometry-Aware Learning with Unified Re...

TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large ...

Навигация