Mixture of Contexts for Long Video Generation
2508.21058v1
cs.GR, cs.AI, cs.CV
2025-08-30
Авторы:
Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
Резюме на русском
#### Контекст
Генерация длительных видео — это задача, требующая умения сохранять и восстанавливать важные события на протяжении долгого временного интервала. Существующие подходы, основанные на диффузионных трансформерах, сталкиваются с тем, что квадратичная стоимость самообращения приводит к проблемам с памятью и вычислительным временем при работе с длинными последовательностями. Это ограничивает эффективность и возможность применения таких моделей в реальных сценариях. Наша модель Mixture of Contexts (MoC) предлагает рефреймеринг проблемы длинного контекста в роли задачи внутреннего восстановления информации, что позволяет устранить ограничения, связанные с самообращением.
#### Метод
Модель MoC использует простую, но эффективную механику динамического спарсинга, которая позволяет модели выбирать только самые актуальные чанки информации из большого контекста. Механизм отбора активных чанков называется "causal routing" и предотвращает зацикливание. Такой подход эффективен в терминах вычислительных ресурсов, так как уменьшает необходимую память и увеличивает мощность модели в задаче длинного контекста. Модель обучается на больших данных и постепенно спарсивается для оптимального баланса между памятью и вычислительной сложностью.
#### Результаты
Мы проводили эксперименты на различных датасетах, включающих видео различной длительности. Модель показала эффективность в сохранении консистентности идентичностей, действий и сцен на протяжении минут работы. Мы сравнили результаты с другими моделями, показав значительное улучшение в качестве генерации, особенно при увеличении длительности видео. Также мы провели исследования по внедрению модели в реальные сценарии, где потребность в длинных видео-потоках критична.
#### Значимость
Модель MoC может применяться в различных областях, включая создание длинных роликов для социальных сетей, автоматическую синтезированную трансляцию мероприятий, и даже видео-редактирование. Одним из основных преимуществ является наиболее эффективный по сравнению с другими моделями использование ресурсов, что позволяет генерировать длинные видео в реальном времени. Это открывает новые горизонты для применения AI в широких сферах, от домашнего видео-редактирования до коммерческих применений.
#### Выводы
Мы доказали, что модель MoC эффективно решает проблему длинного контекста в генерации видео, обеспечивая высокую эффективность и качество. Намерение нашей команды — продолжать работу над улучшением модели, в том числе увеличивая ее масштаб и улучшая качество генерируемых видео. Мы также планируем рассмотреть модель в различных ко
Abstract
Long video generation is fundamentally a long context memory problem: models
must retain and retrieve salient events across a long range without collapsing
or drifting. However, scaling diffusion transformers to generate long-context
videos is fundamentally limited by the quadratic cost of self-attention, which
makes memory and computation intractable and difficult to optimize for long
sequences. We recast long-context video generation as an internal information
retrieval task and propose a simple, learnable sparse attention routing module,
Mixture of Contexts (MoC), as an effective long-term memory retrieval engine.
In MoC, each query dynamically selects a few informative chunks plus mandatory
anchors (caption, local windows) to attend to, with causal routing that
prevents loop closures. As we scale the data and gradually sparsify the
routing, the model allocates compute to salient history, preserving identities,
actions, and scenes over minutes of content. Efficiency follows as a byproduct
of retrieval (near-linear scaling), which enables practical training and
synthesis, and the emergence of memory and consistency at the scale of minutes.
Ссылки и действия
Дополнительные ресурсы: