MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling
2508.08487v1
cs.CV, cs.AI, cs.MA
2025-08-14
Авторы:
Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu
Резюме на русском
#### Контекст
Создание выразительных и информативных видео с говорящими персонажами и глубокой интеграцией сценария представляет собой трудную задачу, которая часто ограничивается техническими и творческими возможностями существующих фреймворков. Они сталкиваются с проблемами, такими как слабая помощь пользователям, низкое качество визуальных эффектов и ограниченность выразительности. Например, развивающиеся фреймворки для рассказа историй через видео часто сталкиваются с трудностями в создании сценариев, которые требуют глубокого понимания художественного контекста и выразительных возможностей. Наша мотивация заключается в развитии расширенного комплексного подхода, который мог бы улучшить качество генерируемых видео, увеличить выразительность и сделать их более помогающими для пользователей.
#### Метод
MAViS (Multi-Agent Video Storytelling) представляет собой современный фреймворк, в котором работают специализированные агенты в разных стадиях процесса рассказа историй с помощью видео. Фреймворк состоит из шести модулей: сценарийная работа, разработка выступления, моделирование персонажей, генерация ключевых кадров, анимация видео и генерация аудио. Каждый модуль придерживается 3E-принципа — Explore (изучение возможностей), Examine (оценка результатов) и Enhance (улучшение результатов). Для улучшения совместимости с набором существующих генерирующих моделей, мы предлагаем Script Writing Guidelines. Эти рекомендации оптимизируют создание сценариев, которые лучше доступны и эффективны для работы с генеративными моделями. Наш подход решает проблемы слабой помощи и несоответствия между пользовательскими вводом и итоговым выходом.
#### Результаты
Мы проверили MAViS на различных данных, включая тестовые видео, произведенные вручную и пользовательские пробы. Наши эксперименты показали, что MAViS превосходит другие фреймворки в трех основных аспектах: помощь пользователю, качество визуальных эффектов и выразительность видео. Например, тесты показали, что MAViS значительно улучшает структуруки сценариев, повышает качество генерируемых кадров и увеличивает уровень выразительности финального видео. Эти результаты подтверждают эффективность нашего подхода в создании высококачественных и интересных видео для рассказа историй.
#### Значимость
MAViS может быть применен в различных областях, таких как творческое производство, образовательные видео, реклама и видеоигры. Он предоставляет пользователям возможность легко создавать высококачественные видео с глубоким сценарием, которые требуют меньше времени и усилий. Одним из осно
Abstract
Despite recent advances, long-sequence video generation frameworks still
suffer from significant limitations: poor assistive capability, suboptimal
visual quality, and limited expressiveness. To mitigate these limitations, we
propose MAViS, an end-to-end multi-agent collaborative framework for
long-sequence video storytelling. MAViS orchestrates specialized agents across
multiple stages, including script writing, shot designing, character modeling,
keyframe generation, video animation, and audio generation. In each stage,
agents operate under the 3E Principle -- Explore, Examine, and Enhance -- to
ensure the completeness of intermediate outputs. Considering the capability
limitations of current generative models, we propose the Script Writing
Guidelines to optimize compatibility between scripts and generative tools.
Experimental results demonstrate that MAViS achieves state-of-the-art
performance in assistive capability, visual quality, and video expressiveness.
Its modular framework further enables scalability with diverse generative
models and tools. With just a brief user prompt, MAViS is capable of producing
high-quality, expressive long-sequence video storytelling, enriching
inspirations and creativity for users. To the best of our knowledge, MAViS is
the only framework that provides multimodal design output -- videos with
narratives and background music.
Ссылки и действия
Дополнительные ресурсы: