MeanFlow-Accelerated Multimodal Video-to-Audio Synthesis via One-Step Generation

2509.06389v1 cs.SD, cs.AI 2025-09-10
Авторы:

Xiaoran Yang, Jianxuan Yang, Xinyue Guo, Haoyu Wang, Ningning Pan, Gongping Huang

Резюме на русском

## Контекст Проблема синтеза аудио из сильного видео заключается в том, что методы, хорошо демонстрирующиеся в качестве аудио или скорости выполнения, обычно малосовпадают в другой области. Это возникает из-за того, что модели, основанные на математических фловах, требуют многоэтапного семплирования для построения аудио, что замедляет их обработку. Наряду с этим, методы classifier-free guidance (CFG), несмотря на то что были предложены для улучшения качества генерируемого звука, часто приводят к нежелательным искажениям в результате. Нужна более быстрая, точная и универсальная модель, которая бы справилась с этим взаимоисключающим требованием. ## Метод Модель MeanFlow-accelerated предлагает решение этой проблемы, используя среднюю скорость в потоке (mean flow) для построения потока, которая позволяет генерировать аудио в одном шаге. Это значительно ускоряет процесс и сохраняет качество звука. Для борьбы с CFG-проблемами, авторы внедрили механизм пересчета масштаба (scalar rescaling), который сбалансировал условное и неусловное прогнозирование. Также, аудио-синтез моделью поддерживает текстовый ввод, что дает ей гибкость в работе на различных задачах, таких как text-to-audio (TTA) синтез. ## Результаты Эксперименты показали, что MeanFlow улучшила скорость генерации на 10–15 раз по сравнению с существующими методами, не снижая качества звука. Также, она демонстрирует высокую точность в построении аудио, совпадающего с заданными видео, а также высокую синхронизацию времени. На TTA-задаче модель показала высокую качественную генерацию звука, точно соответствующую текстовым указаниям. ## Значимость Результаты MeanFlow открывают новые возможности для применения в мультимодальных задачах, таких как создание видео-аудио контента, где необходимо быстрое, качественное и точное генерирование звука. Это может быть применено в массовой продаже, тренировках, образовании и других областях, где видео-и-звук играют ключевую роль. Эффективность и гибкость модели делают ее универсальной и полезной в разных сценариях. ## Выводы MeanFlow ускоряет и улучшает процесс видео-аудио синтеза без потерь качества и синхронизации. Это прорыв в области мультимодальных технологий. Будущие исследования могут уделять внимание улучшению еще большего качества звука, а также расширению модели на другие модальности, такие как текст-видео, видео-текст и др.

Abstract

A key challenge in synthesizing audios from silent videos is the inherent trade-off between synthesis quality and inference efficiency in existing methods. For instance, flow matching based models rely on modeling instantaneous velocity, inherently require an iterative sampling process, leading to slow inference speeds. To address this efficiency bottleneck, we introduce a MeanFlow-accelerated model that characterizes flow fields using average velocity, enabling one-step generation and thereby significantly accelerating multimodal video-to-audio (VTA) synthesis while preserving audio quality, semantic alignment, and temporal synchronization. Furthermore, a scalar rescaling mechanism is employed to balance conditional and unconditional predictions when classifier-free guidance (CFG) is applied, effectively mitigating CFG-induced distortions in one step generation. Since the audio synthesis network is jointly trained with multimodal conditions, we further evaluate it on text-to-audio (TTA) synthesis task. Experimental results demonstrate that incorporating MeanFlow into the network significantly improves inference speed without compromising perceptual quality on both VTA and TTA synthesis tasks.

Ссылки и действия