📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

2025-10-01

Авторы:

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song

#### Контекст Видео-условная генерация звука и речи (Video-conditioned Sound and Speech Generation, VSS) является ключевым направлением в искусственном интеллекте, включая задачи видео-к-звуку (V2S) и визуальной текстовой речи (Visual Text-to-Speech, VisualTTS). Однако, существующие подходы обычно рассматривают эти задачи в отдельности, не добиваясь гармоничного взаимодействия. Это приводит к неэффективности, требованию дополнительных ресурсов и усложнению обучения. Таким образом, сцепление этих задач в единую модель остается актуальной проблемой. Наша мотивация заключается в разработке модели, которая будет эффективно объединять V2S и VisualTTS в единое целое, уменьшая сложность и улучшая качество генерируемых данных. #### Метод Мы предлагаем VSSFlow — модель, основанную на методе течения (flow-matching framework). Эта модель объединяет обе задачи в единый процесс, стремясь к более эффективной интеграции условий. Основным инновационным элементом является уникальный механизм агрегации условий (condition aggregation mechanism), который позволяет эффективно обрабатывать разные типы входных данных, таких как видео и речевые транскрипты. Было выявлено, что разные слои сети (cross-attention и self-attention) демонстрируют разные индуктивные базы при вводе условий. Мы используем эти свойства для эффективного управления: cross-attention для неоднозначных видео-условий и self-attention для более определенных речевых транскриптов. Более того, нами открыто опровергнут миф о том, что усложнение модели для объединения задач приводит к ухудшению качества — VSSFlow благодаря единому циклу обучения демонстрирует более стабильный результат и ускоренное сходимость. #### Результаты Мы проводили эксперименты на задачах V2S и VisualTTS, используя стандартные наборы данных. Наши результаты показывают, что VSSFlow превосходит существующие специализированные модели, устанавливая новые рекорды качества. Особое внимание уделено выявлению преимуществ общего аудио-примитива, который ускоряет обучение, обеспечивает более точное подгонение по условиям и обеспечивает более стабильное генерирование. Эксперименты также подтверждают, что у нас предложенный подход значительно упрощает обучение и улучшает качество генерируемых данных, без дополнительных этапов обучения. #### Значимость Выделяется широкая область применений VSSFlow, включая домашние ассистенты, развлекательные приложения, медицинскую индустрию и искусственные контент-генераторы. Наш подход уникален тем, что объединяет две ранее разделенные задачи в единое решение, сокращая ресурсозатраты и улучшая качество. Преимущества заключаются в простоте развертывания, улучшенной стабильности и улуч

Annotation:

Video-conditioned sound and speech generation, encompassing video-to-sound (V2S) and visual text-to-speech (VisualTTS) tasks, are conventionally addressed as separate tasks, with limited exploration to unify them within a signle framework. Recent attempts to unify V2S and VisualTTS face challenges in handling distinct condition types (e.g., heterogeneous video and transcript conditions) and require complex training stages. Unifying these two tasks remains an open problem. To bridge this gap, we ...

ID: 2509.24773v2 eess.AS, cs.AI, cs.CL, cs.CV, cs.SD

arXiv PDF