MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

2508.08487v1 cs.CV, cs.AI, cs.MA 2025-08-14
Авторы:

Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu

Резюме на русском

#### Контекст Создание выразительных и информативных видео с говорящими персонажами и глубокой интеграцией сценария представляет собой трудную задачу, которая часто ограничивается техническими и творческими возможностями существующих фреймворков. Они сталкиваются с проблемами, такими как слабая помощь пользователям, низкое качество визуальных эффектов и ограниченность выразительности. Например, развивающиеся фреймворки для рассказа историй через видео часто сталкиваются с трудностями в создании сценариев, которые требуют глубокого понимания художественного контекста и выразительных возможностей. Наша мотивация заключается в развитии расширенного комплексного подхода, который мог бы улучшить качество генерируемых видео, увеличить выразительность и сделать их более помогающими для пользователей. #### Метод MAViS (Multi-Agent Video Storytelling) представляет собой современный фреймворк, в котором работают специализированные агенты в разных стадиях процесса рассказа историй с помощью видео. Фреймворк состоит из шести модулей: сценарийная работа, разработка выступления, моделирование персонажей, генерация ключевых кадров, анимация видео и генерация аудио. Каждый модуль придерживается 3E-принципа — Explore (изучение возможностей), Examine (оценка результатов) и Enhance (улучшение результатов). Для улучшения совместимости с набором существующих генерирующих моделей, мы предлагаем Script Writing Guidelines. Эти рекомендации оптимизируют создание сценариев, которые лучше доступны и эффективны для работы с генеративными моделями. Наш подход решает проблемы слабой помощи и несоответствия между пользовательскими вводом и итоговым выходом. #### Результаты Мы проверили MAViS на различных данных, включая тестовые видео, произведенные вручную и пользовательские пробы. Наши эксперименты показали, что MAViS превосходит другие фреймворки в трех основных аспектах: помощь пользователю, качество визуальных эффектов и выразительность видео. Например, тесты показали, что MAViS значительно улучшает структуруки сценариев, повышает качество генерируемых кадров и увеличивает уровень выразительности финального видео. Эти результаты подтверждают эффективность нашего подхода в создании высококачественных и интересных видео для рассказа историй. #### Значимость MAViS может быть применен в различных областях, таких как творческое производство, образовательные видео, реклама и видеоигры. Он предоставляет пользователям возможность легко создавать высококачественные видео с глубоким сценарием, которые требуют меньше времени и усилий. Одним из осно

Abstract

Despite recent advances, long-sequence video generation frameworks still suffer from significant limitations: poor assistive capability, suboptimal visual quality, and limited expressiveness. To mitigate these limitations, we propose MAViS, an end-to-end multi-agent collaborative framework for long-sequence video storytelling. MAViS orchestrates specialized agents across multiple stages, including script writing, shot designing, character modeling, keyframe generation, video animation, and audio generation. In each stage, agents operate under the 3E Principle -- Explore, Examine, and Enhance -- to ensure the completeness of intermediate outputs. Considering the capability limitations of current generative models, we propose the Script Writing Guidelines to optimize compatibility between scripts and generative tools. Experimental results demonstrate that MAViS achieves state-of-the-art performance in assistive capability, visual quality, and video expressiveness. Its modular framework further enables scalability with diverse generative models and tools. With just a brief user prompt, MAViS is capable of producing high-quality, expressive long-sequence video storytelling, enriching inspirations and creativity for users. To the best of our knowledge, MAViS is the only framework that provides multimodal design output -- videos with narratives and background music.

Ссылки и действия

Связанные статьи

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

########################## ## Контекст ########################## В последние годы интеллектуальные системы визуального ...

2025-09-24

ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-L...

## Контекст Огромные языково-визуальные модели (Large Vision-Language Models, LVLMs) обладают выдающимися возможностями ...

2025-09-22