Mixture of Contexts for Long Video Generation

2508.21058v1 cs.GR, cs.AI, cs.CV 2025-08-30
Авторы:

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

Резюме на русском

#### Контекст Генерация длительных видео — это задача, требующая умения сохранять и восстанавливать важные события на протяжении долгого временного интервала. Существующие подходы, основанные на диффузионных трансформерах, сталкиваются с тем, что квадратичная стоимость самообращения приводит к проблемам с памятью и вычислительным временем при работе с длинными последовательностями. Это ограничивает эффективность и возможность применения таких моделей в реальных сценариях. Наша модель Mixture of Contexts (MoC) предлагает рефреймеринг проблемы длинного контекста в роли задачи внутреннего восстановления информации, что позволяет устранить ограничения, связанные с самообращением. #### Метод Модель MoC использует простую, но эффективную механику динамического спарсинга, которая позволяет модели выбирать только самые актуальные чанки информации из большого контекста. Механизм отбора активных чанков называется "causal routing" и предотвращает зацикливание. Такой подход эффективен в терминах вычислительных ресурсов, так как уменьшает необходимую память и увеличивает мощность модели в задаче длинного контекста. Модель обучается на больших данных и постепенно спарсивается для оптимального баланса между памятью и вычислительной сложностью. #### Результаты Мы проводили эксперименты на различных датасетах, включающих видео различной длительности. Модель показала эффективность в сохранении консистентности идентичностей, действий и сцен на протяжении минут работы. Мы сравнили результаты с другими моделями, показав значительное улучшение в качестве генерации, особенно при увеличении длительности видео. Также мы провели исследования по внедрению модели в реальные сценарии, где потребность в длинных видео-потоках критична. #### Значимость Модель MoC может применяться в различных областях, включая создание длинных роликов для социальных сетей, автоматическую синтезированную трансляцию мероприятий, и даже видео-редактирование. Одним из основных преимуществ является наиболее эффективный по сравнению с другими моделями использование ресурсов, что позволяет генерировать длинные видео в реальном времени. Это открывает новые горизонты для применения AI в широких сферах, от домашнего видео-редактирования до коммерческих применений. #### Выводы Мы доказали, что модель MoC эффективно решает проблему длинного контекста в генерации видео, обеспечивая высокую эффективность и качество. Намерение нашей команды — продолжать работу над улучшением модели, в том числе увеличивая ее масштаб и улучшая качество генерируемых видео. Мы также планируем рассмотреть модель в различных ко

Abstract

Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simple, learnable sparse attention routing module, Mixture of Contexts (MoC), as an effective long-term memory retrieval engine. In MoC, each query dynamically selects a few informative chunks plus mandatory anchors (caption, local windows) to attend to, with causal routing that prevents loop closures. As we scale the data and gradually sparsify the routing, the model allocates compute to salient history, preserving identities, actions, and scenes over minutes of content. Efficiency follows as a byproduct of retrieval (near-linear scaling), which enables practical training and synthesis, and the emergence of memory and consistency at the scale of minutes.

Ссылки и действия