Yan: Foundational Interactive Video Generation
2508.08601v2
cs.CV, cs.AI
2025-08-14
Авторы:
Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun
Резюме на русском
## Контекст
Область исследования включает в себя развитие интерактивных технологий видеогенерации, которые могут адаптироваться в реальном времени к пользовательским входным данным. Текущие проблемы в этой области заключаются в отсутствии глубокой интеграции высшего уровня анимации и синтеза видео, а также в неэффективности существующих подходов в обеспечении реального времени и гибкой редактироваемости видео. Мотивацией для разработки Yan явилась необходимость в новом фундаментальном подходе, объединяющем в себе всю интерактивную цепочку генерации видео от моделирования до редактирования.
## Метод
Yan представляет собой интегрированную систему, состоящую из трех основных модулей. 1) **AAA-уровневая симуляция** основывается на 3D-VAE с кэшем на основе ключевых слов (KV-cache) и процессом разбиения окна для уменьшения шума. Это позволяет достичь реального времени 1080p/60fps в интерактивных ситуациях. 2) **Многомодальная генерация** использует лесковскую авторегрессию, внедряющую знания об играх в рамки модели различных типов мультимедиа. Это позволяет генерировать видео, которое реагирует на текстовые и визуальные стимулы, а также может быть контролируемо по отдельным кадрам. 3) **Многоуровневое редактирование** разделяет механику интерактивности от визуального отображения, что обеспечивает тонкую редактироваемость видео в реальном времени с помощью текста.
## Результаты
Исследования проводились на огромном корпусе данных, включавших видео с различными стилями и механиками. Тестирование показало, что система Yan достигает высокой точности и реального времени при симуляции и генерации видео. Многомодальная генерация продемонстрировала мощь модели в создании продолжений видео, при этом сохраняя стиль и механику кросс-доменных объектов. Также было показано, что многоуровневое редактирование дает пользователю тонкую контрольную силу над содержимым видео.
## Значимость
Yan открывает путь к новым возможностям в игровой индустрии, животворной индустрии, создания новых типов кинематографического контента и даже динамических визуальных интерфейсов. Его гибкость и реальность делают его полезным в приложениях, требующих интерактивности и реактивности с пользователем.
## Выводы
Yan представляет собой новую модель интерактивной генерации видео, объединяющую высокую реальность, многомодальность и редактирование. Будущие исследования будут фокусироваться на улучшении вычислительной эффективности, расширении данных входа и развитии новых методов редактирова
Abstract
We present Yan, a foundational framework for interactive video generation,
covering the entire pipeline from simulation and generation to editing.
Specifically, Yan comprises three core modules. AAA-level Simulation: We design
a highly-compressed, low-latency 3D-VAE coupled with a KV-cache-based
shift-window denoising inference process, achieving real-time 1080P/60FPS
interactive simulation. Multi-Modal Generation: We introduce a hierarchical
autoregressive caption method that injects game-specific knowledge into
open-domain multi-modal video diffusion models (VDMs), then transforming the
VDM into a frame-wise, action-controllable, real-time infinite interactive
video generator. Notably, when the textual and visual prompts are sourced from
different domains, the model demonstrates strong generalization, allowing it to
blend and compose the style and mechanics across domains flexibly according to
user prompts. Multi-Granularity Editing: We propose a hybrid model that
explicitly disentangles interactive mechanics simulation from visual rendering,
enabling multi-granularity video content editing during interaction through
text. Collectively, Yan offers an integration of these modules, pushing
interactive video generation beyond isolated capabilities toward a
comprehensive AI-driven interactive creation paradigm, paving the way for the
next generation of creative tools, media, and entertainment. The project page
is: https://greatx3.github.io/Yan/.
Ссылки и действия
Дополнительные ресурсы: