Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm
2508.03955v1
cs.CV
2025-08-09
Авторы:
Lin Zhang, Zefan Cai, Yufan Zhou, Shentong Mo, Jinhong Lin, Cheng-En Wu, Yibing Wei, Yijing Zhang, Ruiyi Zhang, Wen Xiao, Tong Sun, Junjie Hu, Pedro Morgado
Резюме на русском
Определение аудио-синхронизированной визуальной анимации, которая позволяет управлять видеоконтентом с помощью аудио, сталкивается с проблемой дорогостоящей и ручной подготовки высококачественных классо-специфичных тренировочных видео. Для решения этой проблемы предложено двухэтапное обучение: в первой стадии извлекаются большие объемы заранее неподготовленных видео для предобучения, чтобы модель научилась осуществлять грубую аудио-визуальную синхронизацию. На второй стадии выполняется тюнинг на выборке высококачественных данных, но на малых объемах, что существенно сокращает потребность в ручной работе. Для повышения точности синхронизации используется многофункциональное условие аудио и окна внимания, что обеспечивает более точное подстройку. Используя предобученные текстовые-видео-генераторы и аудио-энкодеры, новый подход добавляет всего 1.9% дополнительных параметров для обучения. Эксперименты с бенчмарком AVSync48, представляющим 48 классов, показали, что данный подход снижает зависимость от ручной подготовки в 10 раз и способен хорошо обобщаться на различные классы в открытом мире.
Abstract
Recent advances in audio-synchronized visual animation enable control of
video content using audios from specific classes. However, existing methods
rely heavily on expensive manual curation of high-quality, class-specific
training videos, posing challenges to scaling up to diverse audio-video classes
in the open world. In this work, we propose an efficient two-stage training
paradigm to scale up audio-synchronized visual animation using abundant but
noisy videos. In stage one, we automatically curate large-scale videos for
pretraining, allowing the model to learn diverse but imperfect audio-video
alignments. In stage two, we finetune the model on manually curated
high-quality examples, but only at a small scale, significantly reducing the
required human effort. We further enhance synchronization by allowing each
frame to access rich audio context via multi-feature conditioning and window
attention. To efficiently train the model, we leverage pretrained text-to-video
generator and audio encoders, introducing only 1.9\% additional trainable
parameters to learn audio-conditioning capability without compromising the
generator's prior knowledge. For evaluation, we introduce AVSync48, a benchmark
with videos from 48 classes, which is 3$\times$ more diverse than previous
benchmarks. Extensive experiments show that our method significantly reduces
reliance on manual curation by over 10$\times$, while generalizing to many open
classes.
Ссылки и действия
Дополнительные ресурсы: