MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization
2509.19999v1
cs.MM, cs.CV, cs.SD
2025-09-26
Авторы:
Jianxuan Yang, Xiaoran Yang, Lipan Zhang, Xinyue Guo, Zhao Wang, Gongping Huang
Резюме на русском
## Контекст
В настоящее время, методы видео-к-звуку (V2A) сталкиваются с значительными трудностями при работе в сложных многособытийных сценариях, где видео содержит несколько звуковых источников, событий или звуковых переходов. Эти ограничения могут быть связаны с недостаточной точностью выравнивания семантической информации и динамических черт, а также с недостатком количественных подходов для оптимизации критериев качества звука и временных характеристик. Эти проблемы приводят к недостаточности генерируемого аудио по сравнению с реальными сценариями. Наша мотивация заключается в развитии эффективного алгоритма, который может справиться с этими вызовами и повысить качество генерируемого аудио, даже в сложных многособытийных сценариях.
## Метод
Мы предлагаем MultiSoundGen, новую V2A-модель, которая впервые внедряет метод прямой оптимизации предпочтений (DPO) в этот класс задач. Модель основывается на SlowFast Contrastive Audio-Visual Pretraining (SF-CAVP), которая разработана как универсальный подход к алгоритму AVP. SF-CAVP имеет двойную структуру потоков (два уровня времени: быстрый и медленный), что позволяет ей эффективно учитывать как статические, так и динамические аспекты видео и звука. Кроме того, мы внедряем AVP-Ranked Preference Optimization (AVP-RPO), который использует SF-CAVP в качестве модели награды для оценки и оптимизации критериев качества звука и приоритезации семантических и временных соответствий. Это позволяет нашей модели преодолевать трудности, связанные с многособытийными сценариями.
## Результаты
Мы проводили многочисленные эксперименты для оценки эффективности нашего подхода. Для этого использовались различные данные, включая многособытийные сценарии с множеством звуковых источников и динамических переходов. У нас были получены замечательные результаты, показавшие существенное улучшение по сравнению с текущими методами в ключевых аспектах: распределения звуков, качество звука, семантическое выравнивание и временное синхронизирование. Наши эксперименты показали, что MultiSoundGen не только подходит для сложных сценариев, но и показывает новый состояний лучшего результата (SOTA) в этом классе задач.
## Значимость
Наша модель имеет широкие возможности для применения в различных сферах, таких как разработка виртуальной реальности, интерактивных систем, аудио-визуальных моделей и даже в сфере искусственного интеллекта. Обладая высоким качеством генерируемого аудио и точной семантической алгоритмизацией, MultiSoundGen может сделать системы более удобными для пользователей и эффективными для приложений. Этот подход также открывает новы
Abstract
Current video-to-audio (V2A) methods struggle in complex multi-event
scenarios (video scenarios involving multiple sound sources, sound events, or
transitions) due to two critical limitations. First, existing methods face
challenges in precisely aligning intricate semantic information together with
rapid dynamic features. Second, foundational training lacks quantitative
preference optimization for semantic-temporal alignment and audio quality. As a
result, it fails to enhance integrated generation quality in cluttered
multi-event scenes. To address these core limitations, this study proposes a
novel V2A framework: MultiSoundGen. It introduces direct preference
optimization (DPO) into the V2A domain, leveraging audio-visual pretraining
(AVP) to enhance performance in complex multi-event scenarios. Our
contributions include two key innovations: the first is SlowFast Contrastive
AVP (SF-CAVP), a pioneering AVP model with a unified dual-stream architecture.
SF-CAVP explicitly aligns core semantic representations and rapid dynamic
features of audio-visual data to handle multi-event complexity; second, we
integrate the DPO method into V2A task and propose AVP-Ranked Preference
Optimization (AVP-RPO). It uses SF-CAVP as a reward model to quantify and
prioritize critical semantic-temporal matches while enhancing audio quality.
Experiments demonstrate that MultiSoundGen achieves state-of-the-art (SOTA)
performance in multi-event scenarios, delivering comprehensive gains across
distribution matching, audio quality, semantic alignment, and temporal
synchronization. The complete code and dataset will be released soon.
Ссылки и действия
Дополнительные ресурсы: