VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
2509.24773v2
eess.AS, cs.AI, cs.CL, cs.CV, cs.SD
2025-10-01
Авторы:
Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song
Резюме на русском
#### Контекст
Видео-условная генерация звука и речи (Video-conditioned Sound and Speech Generation, VSS) является ключевым направлением в искусственном интеллекте, включая задачи видео-к-звуку (V2S) и визуальной текстовой речи (Visual Text-to-Speech, VisualTTS). Однако, существующие подходы обычно рассматривают эти задачи в отдельности, не добиваясь гармоничного взаимодействия. Это приводит к неэффективности, требованию дополнительных ресурсов и усложнению обучения. Таким образом, сцепление этих задач в единую модель остается актуальной проблемой. Наша мотивация заключается в разработке модели, которая будет эффективно объединять V2S и VisualTTS в единое целое, уменьшая сложность и улучшая качество генерируемых данных.
#### Метод
Мы предлагаем VSSFlow — модель, основанную на методе течения (flow-matching framework). Эта модель объединяет обе задачи в единый процесс, стремясь к более эффективной интеграции условий. Основным инновационным элементом является уникальный механизм агрегации условий (condition aggregation mechanism), который позволяет эффективно обрабатывать разные типы входных данных, таких как видео и речевые транскрипты. Было выявлено, что разные слои сети (cross-attention и self-attention) демонстрируют разные индуктивные базы при вводе условий. Мы используем эти свойства для эффективного управления: cross-attention для неоднозначных видео-условий и self-attention для более определенных речевых транскриптов. Более того, нами открыто опровергнут миф о том, что усложнение модели для объединения задач приводит к ухудшению качества — VSSFlow благодаря единому циклу обучения демонстрирует более стабильный результат и ускоренное сходимость.
#### Результаты
Мы проводили эксперименты на задачах V2S и VisualTTS, используя стандартные наборы данных. Наши результаты показывают, что VSSFlow превосходит существующие специализированные модели, устанавливая новые рекорды качества. Особое внимание уделено выявлению преимуществ общего аудио-примитива, который ускоряет обучение, обеспечивает более точное подгонение по условиям и обеспечивает более стабильное генерирование. Эксперименты также подтверждают, что у нас предложенный подход значительно упрощает обучение и улучшает качество генерируемых данных, без дополнительных этапов обучения.
#### Значимость
Выделяется широкая область применений VSSFlow, включая домашние ассистенты, развлекательные приложения, медицинскую индустрию и искусственные контент-генераторы. Наш подход уникален тем, что объединяет две ранее разделенные задачи в единое решение, сокращая ресурсозатраты и улучшая качество. Преимущества заключаются в простоте развертывания, улучшенной стабильности и улуч
Abstract
Video-conditioned sound and speech generation, encompassing video-to-sound
(V2S) and visual text-to-speech (VisualTTS) tasks, are conventionally addressed
as separate tasks, with limited exploration to unify them within a signle
framework. Recent attempts to unify V2S and VisualTTS face challenges in
handling distinct condition types (e.g., heterogeneous video and transcript
conditions) and require complex training stages. Unifying these two tasks
remains an open problem. To bridge this gap, we present VSSFlow, which
seamlessly integrates both V2S and VisualTTS tasks into a unified flow-matching
framework. VSSFlow uses a novel condition aggregation mechanism to handle
distinct input signals. We find that cross-attention and self-attention layer
exhibit different inductive biases in the process of introducing condition.
Therefore, VSSFlow leverages these inductive biases to effectively handle
different representations: cross-attention for ambiguous video conditions and
self-attention for more deterministic speech transcripts. Furthermore, contrary
to the prevailing belief that joint training on the two tasks requires complex
training strategies and may degrade performance, we find that VSSFlow benefits
from the end-to-end joint learning process for sound and speech generation
without extra designs on training stages. Detailed analysis attributes it to
the learned general audio prior shared between tasks, which accelerates
convergence, enhances conditional generation, and stabilizes the
classifier-free guidance process. Extensive experiments demonstrate that
VSSFlow surpasses the state-of-the-art domain-specific baselines on both V2S
and VisualTTS benchmarks, underscoring the critical potential of unified
generative models.