Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
2508.03334v2
cs.CV
2025-08-09
Авторы:
Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
Резюме на русском
**Резюме**
Авторы предлагают метод Macro-from-Micro Planning (MMPL) для решения проблемы ограниченности диффузионных моделей авторегрессии в генерации длинных видео. Эта проблема возникает из-за ошибки аккумуляции при авторегрессионном моделировании, что снижает качество и параллелизм при генерации длинных видео. Разработанная модель разделяет задачу на два этапа: Micro Planning и Macro Planning. Micro Planning определяет начальные ключевые кадры для каждого небольшого видео-сегмента, обеспечивая высокое качество и стабильность. Macro Planning расширяет эти планы на всю длину видео, обеспечивая долгосрочную консистентность. Для ускорения и эффективного использования GPU, авторы предлагают Adaptive Workload Scheduling для параллельной генерации кадров. Эксперименты показали, что MMPL превосходит существующие модели по качеству и стабильности генерируемых видео. Результаты и примеры генерируемых видео доступны на проектной странице.
Abstract
Current autoregressive diffusion models excel at video generation but are
generally limited to short temporal durations. Our theoretical analysis
indicates that the autoregressive modeling typically suffers from temporal
drift caused by error accumulation and hinders parallelization in long video
synthesis. To address these limitations, we propose a novel
planning-then-populating framework centered on Macro-from-Micro Planning (MMPL)
for long video generation. MMPL sketches a global storyline for the entire
video through two hierarchical stages: Micro Planning and Macro Planning.
Specifically, Micro Planning predicts a sparse set of future keyframes within
each short video segment, offering motion and appearance priors to guide
high-quality video segment generation. Macro Planning extends the in-segment
keyframes planning across the entire video through an autoregressive chain of
micro plans, ensuring long-term consistency across video segments.
Subsequently, MMPL-based Content Populating generates all intermediate frames
in parallel across segments, enabling efficient parallelization of
autoregressive generation. The parallelization is further optimized by Adaptive
Workload Scheduling for balanced GPU execution and accelerated autoregressive
video generation. Extensive experiments confirm that our method outperforms
existing long video generation models in quality and stability. Generated
videos and comparison results are in our project page.
Ссылки и действия
Дополнительные ресурсы: