LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

2508.03694v1 cs.CV 2025-08-06

Авторы:

Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Генерация видео является одной из актуальных задач в области компьютерного зрения и машинного обучения. Существующие методы, направленные на создание коротких видеоклипов, показывают хорошие результаты, однако они сталкиваются с серьезными трудностями при генерации продолжительных видео. К основным проблемам можно отнести временную несогласованность и визуальное ухудшение качества. Эти аспекты становятся особенно значительными, когда речь идет о генерации видео продолжительностью более одной минуты. Существующие подходы к контролируемой генерации видео, как правило, ориентированы на работу с однотипными данными и не учитывают сложности, возникающие при интеграции различных модальностей. В частности, недостаточная инициализация шума, независимая нормализация управляющих сигналов и ограниченность использования однородных данных приводят к ухудшению качества результатов. Поэтому существует настоятельная необходимость в разработке более эффективных методов, которые бы учитывали эти ограничения и обеспечивали бы высокое качество видео с сохранением временной согласованности. Данная статья представляет собой попытку решения этих проблем. Авторы изучают ключевые факторы, влияющие на качество генерации, и предлагают новый подход под названием LongVie, который направлен на создание контролируемого ультрадолгого видео с учетом уникальных характеристик данных и требований к качеству. ## ПРЕДЛОЖЕННЫЙ МЕТОД LongVie представляет собой автономную авторегрессионную архитектуру, которая включает в себя несколько ключевых компонентов, направленных на решение вышеупомянутых проблем. Во-первых, система использует унифицированную стратегию инициализации шума, которая обеспечивает однородность генерации во всех клипах. Это позволяет избежать проблем с временной несогласованностью, которые часто возникают в традиционных методах. Во-вторых, LongVie применяет глобальную нормализацию управляющих сигналов, что обеспечивает согласование в пространстве управления на протяжении всего видео. Это позволяет контролировать процесс генерации более эффективно и с наименьшими потерями качества. Для борьбы с визуальным ухудшением качества, LongVie использует многомодальную контрольную структуру, которая интегрирует как плотные (например, карты глубины), так и разреженные (например, ключевые точки) управляющие сигналы. Это позволяет системе адаптивно реагировать на изменения в визуальной информации и корректировать процесс генерации в реальном времени. Кроме того, LongVie включает в себя стратегию обучения, учитывающую деградацию, которая адаптивно балансирует вклад различных модальностей во времени, что позволяет поддерживать высокое визуальное качество на протяжении всего видео. Данные подходы в совокупности обеспечивают LongVie выдающиеся результаты в области контролируемой генерации длинных видеоклипов, что делает этот метод значительным шагом вперед в данной области. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования была проведена серия экспериментов, направленных на оценку эффективности LongVie. Для этих целей был разработан новый обширный бенчмарк LongVGenBench, который включает 100 высококачественных видеороликов, охватывающих разнообразные реальные и синтетические среды, каждый из которых длится более одной минуты. Это позволяет полноценно оценить возможности LongVie в различных условиях. Эксперименты продемонстрировали, что LongVie достигает состояния наилучшего искусства в таких аспектах, как долгосрочная контролируемость, согласованность и качество визуализации. Результаты показывают, что система способна генерировать видео с высокой степенью детализации, сохраняя при этом временную согласованность на протяжении всей длины клипа. Сравнение с существующими методами подтвердило, что LongVie превосходит аналогичные подходы по всем ключевым метрикам, включая субъективное качество видео и согласованность между кадрами. Эти результаты подчеркивают значимость предложенного метода и его потенциал для применения в практических задачах генерации видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LongVie имеет широкий спектр применения в различных областях, включая развлекательную индустрию, создание видеоигр, а также в образовательных и рекламных приложениях. Его способность генерировать длинные видеоклипы с высокой степенью контролируемости и качеством открывает новые возможности для креативных специалистов, позволяя им создавать уникальный контент с минимальными затратами времени и ресурсов. Кроме того, LongVie может быть использован в исследованиях, связанных с анализом и синтезом видео, а также в области виртуальной и дополненной реальности, где требуется создание реалистичных и динамичных окружений. Потенциальное влияние данного метода на индустрию может быть значительным, так как он позволяет значительно упростить процесс создания видеоконтента, который раньше требовал значительных усилий и времени. Также стоит отметить, что использование многомодальных сигналов в контроле генерации может привести к новым подходам в других областях, таких как робототехника и автономные системы, где визуальная информация и управление играют ключевую роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В статье представлены значимые достижения в области контролируемой генерации ультрадолгих видео с использованием метода LongVie. Авторы продемонстрировали, что предложенная архитектура успешно решает проблемы временной несогласованности и визуального ухудшения, обеспечивая высокое качество и согласованность при генерации длинных видеоклипов. Направления для будущих исследований включают дальнейшую оптимизацию модели, изучение дополнительных модальностей и улучшение адаптивных стратегий обучения. Также стоит рассмотреть возможность интеграции LongVie с другими технологиями, такими как генерация текста в видео или создание интерактивного контента. Все это открывает новые горизонты для улучшения и расширения возможностей автоматизированной генерации видео.

Abstract

Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация