MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization

2509.19999v1 cs.MM, cs.CV, cs.SD 2025-09-26
Авторы:

Jianxuan Yang, Xiaoran Yang, Lipan Zhang, Xinyue Guo, Zhao Wang, Gongping Huang

Резюме на русском

## Контекст В настоящее время, методы видео-к-звуку (V2A) сталкиваются с значительными трудностями при работе в сложных многособытийных сценариях, где видео содержит несколько звуковых источников, событий или звуковых переходов. Эти ограничения могут быть связаны с недостаточной точностью выравнивания семантической информации и динамических черт, а также с недостатком количественных подходов для оптимизации критериев качества звука и временных характеристик. Эти проблемы приводят к недостаточности генерируемого аудио по сравнению с реальными сценариями. Наша мотивация заключается в развитии эффективного алгоритма, который может справиться с этими вызовами и повысить качество генерируемого аудио, даже в сложных многособытийных сценариях. ## Метод Мы предлагаем MultiSoundGen, новую V2A-модель, которая впервые внедряет метод прямой оптимизации предпочтений (DPO) в этот класс задач. Модель основывается на SlowFast Contrastive Audio-Visual Pretraining (SF-CAVP), которая разработана как универсальный подход к алгоритму AVP. SF-CAVP имеет двойную структуру потоков (два уровня времени: быстрый и медленный), что позволяет ей эффективно учитывать как статические, так и динамические аспекты видео и звука. Кроме того, мы внедряем AVP-Ranked Preference Optimization (AVP-RPO), который использует SF-CAVP в качестве модели награды для оценки и оптимизации критериев качества звука и приоритезации семантических и временных соответствий. Это позволяет нашей модели преодолевать трудности, связанные с многособытийными сценариями. ## Результаты Мы проводили многочисленные эксперименты для оценки эффективности нашего подхода. Для этого использовались различные данные, включая многособытийные сценарии с множеством звуковых источников и динамических переходов. У нас были получены замечательные результаты, показавшие существенное улучшение по сравнению с текущими методами в ключевых аспектах: распределения звуков, качество звука, семантическое выравнивание и временное синхронизирование. Наши эксперименты показали, что MultiSoundGen не только подходит для сложных сценариев, но и показывает новый состояний лучшего результата (SOTA) в этом классе задач. ## Значимость Наша модель имеет широкие возможности для применения в различных сферах, таких как разработка виртуальной реальности, интерактивных систем, аудио-визуальных моделей и даже в сфере искусственного интеллекта. Обладая высоким качеством генерируемого аудио и точной семантической алгоритмизацией, MultiSoundGen может сделать системы более удобными для пользователей и эффективными для приложений. Этот подход также открывает новы

Abstract

Current video-to-audio (V2A) methods struggle in complex multi-event scenarios (video scenarios involving multiple sound sources, sound events, or transitions) due to two critical limitations. First, existing methods face challenges in precisely aligning intricate semantic information together with rapid dynamic features. Second, foundational training lacks quantitative preference optimization for semantic-temporal alignment and audio quality. As a result, it fails to enhance integrated generation quality in cluttered multi-event scenes. To address these core limitations, this study proposes a novel V2A framework: MultiSoundGen. It introduces direct preference optimization (DPO) into the V2A domain, leveraging audio-visual pretraining (AVP) to enhance performance in complex multi-event scenarios. Our contributions include two key innovations: the first is SlowFast Contrastive AVP (SF-CAVP), a pioneering AVP model with a unified dual-stream architecture. SF-CAVP explicitly aligns core semantic representations and rapid dynamic features of audio-visual data to handle multi-event complexity; second, we integrate the DPO method into V2A task and propose AVP-Ranked Preference Optimization (AVP-RPO). It uses SF-CAVP as a reward model to quantify and prioritize critical semantic-temporal matches while enhancing audio quality. Experiments demonstrate that MultiSoundGen achieves state-of-the-art (SOTA) performance in multi-event scenarios, delivering comprehensive gains across distribution matching, audio quality, semantic alignment, and temporal synchronization. The complete code and dataset will be released soon.

Ссылки и действия