Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm

2508.03955v1 cs.CV 2025-08-09
Авторы:

Lin Zhang, Zefan Cai, Yufan Zhou, Shentong Mo, Jinhong Lin, Cheng-En Wu, Yibing Wei, Yijing Zhang, Ruiyi Zhang, Wen Xiao, Tong Sun, Junjie Hu, Pedro Morgado

Резюме на русском

Определение аудио-синхронизированной визуальной анимации, которая позволяет управлять видеоконтентом с помощью аудио, сталкивается с проблемой дорогостоящей и ручной подготовки высококачественных классо-специфичных тренировочных видео. Для решения этой проблемы предложено двухэтапное обучение: в первой стадии извлекаются большие объемы заранее неподготовленных видео для предобучения, чтобы модель научилась осуществлять грубую аудио-визуальную синхронизацию. На второй стадии выполняется тюнинг на выборке высококачественных данных, но на малых объемах, что существенно сокращает потребность в ручной работе. Для повышения точности синхронизации используется многофункциональное условие аудио и окна внимания, что обеспечивает более точное подстройку. Используя предобученные текстовые-видео-генераторы и аудио-энкодеры, новый подход добавляет всего 1.9% дополнительных параметров для обучения. Эксперименты с бенчмарком AVSync48, представляющим 48 классов, показали, что данный подход снижает зависимость от ручной подготовки в 10 раз и способен хорошо обобщаться на различные классы в открытом мире.

Abstract

Recent advances in audio-synchronized visual animation enable control of video content using audios from specific classes. However, existing methods rely heavily on expensive manual curation of high-quality, class-specific training videos, posing challenges to scaling up to diverse audio-video classes in the open world. In this work, we propose an efficient two-stage training paradigm to scale up audio-synchronized visual animation using abundant but noisy videos. In stage one, we automatically curate large-scale videos for pretraining, allowing the model to learn diverse but imperfect audio-video alignments. In stage two, we finetune the model on manually curated high-quality examples, but only at a small scale, significantly reducing the required human effort. We further enhance synchronization by allowing each frame to access rich audio context via multi-feature conditioning and window attention. To efficiently train the model, we leverage pretrained text-to-video generator and audio encoders, introducing only 1.9\% additional trainable parameters to learn audio-conditioning capability without compromising the generator's prior knowledge. For evaluation, we introduce AVSync48, a benchmark with videos from 48 classes, which is 3$\times$ more diverse than previous benchmarks. Extensive experiments show that our method significantly reduces reliance on manual curation by over 10$\times$, while generalizing to many open classes.

Ссылки и действия