Follow-Your-Instruction: A Comprehensive MLLM Agent for World Data Synthesis
2508.05580v1
cs.CV
2025-08-09
Авторы:
Kunyu Feng, Yue Ma, Xinhua Zhang, Boshi Liu, Yikuang Yuluo, Yinhan Zhang, Runtao Liu, Hongyu Liu, Zhiyuan Qin, Shanhui Mo, Qifeng Chen, Zeyu Wang
Резюме на русском
В связи с повышением спроса на AI-generated content (AIGC), возникает необходимость в высококачественной, разнообразной и масштабируемой данной для обеспечения развития последующих приложений. Однако сбор больших объемов настоящих данных остается дорогим и трудоемким, что способствует ограниченности в развитии в области генерируемого контента. Чтобы решить эту проблему, предлагается Follow-Your-Instruction — рамфреймворк, основанный на многомодальных больших языковых моделях (MLLM), для автоматического создания высококачественных данных в 2D, 3D и 4D. Он собирает активы и их описания с помощью MLLM-Collector, строит 3D-раскладки, использует Vision-Language Models (VLMs) для семантического очистки в многовидовых сценах с помощью MLLM-Generator и MLLM-Optimizer, и создает коалительно выбранные последующие кадры с помощью MLLM-Planner. Эксперименты показали, что данные, сгенерированные Follow-Your-Instruction, существенно улучшают производительность существующих моделей, демонстрируя свою масштабируемость и эффективность в качестве данной для генерируемого контента.
Abstract
With the growing demands of AI-generated content (AIGC), the need for
high-quality, diverse, and scalable data has become increasingly crucial.
However, collecting large-scale real-world data remains costly and
time-consuming, hindering the development of downstream applications. While
some works attempt to collect task-specific data via a rendering process, most
approaches still rely on manual scene construction, limiting their scalability
and accuracy. To address these challenges, we propose Follow-Your-Instruction,
a Multimodal Large Language Model (MLLM)-driven framework for automatically
synthesizing high-quality 2D, 3D, and 4D data. Our
\textbf{Follow-Your-Instruction} first collects assets and their associated
descriptions through multimodal inputs using the MLLM-Collector. Then it
constructs 3D layouts, and leverages Vision-Language Models (VLMs) for semantic
refinement through multi-view scenes with the MLLM-Generator and
MLLM-Optimizer, respectively. Finally, it uses MLLM-Planner to generate
temporally coherent future frames. We evaluate the quality of the generated
data through comprehensive experiments on the 2D, 3D, and 4D generative tasks.
The results show that our synthetic data significantly boosts the performance
of existing baseline models, demonstrating Follow-Your-Instruction's potential
as a scalable and effective data engine for generative intelligence.
Ссылки и действия
Дополнительные ресурсы: