Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

2509.04957v1 cs.CV, cs.MM, cs.SD, eess.AS 2025-09-09

Авторы:

Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang

Резюме на русском

#### Контекст Тема исследования — Efficient Video-to-Audio (V2A) Generation via Multiple Foundation Models Mapper — затрагивает адаптацию изображений видео в аудиосигналы с использованием множества основных моделей. Традиционный подход к V2A требует значительных ресурсов для обучения моделей, что ограничивает их применение. Новые методы, основанные на многоцелевых моделях (foundation models, FMs), позволяют передавать полезные свойства из одной модели в другую, уменьшая необходимость в тренировочных данных. Данная работа отвечает на рост интереса к эффективному использованию FMs в области V2A. #### Метод MFM-Mapper является усовершенствованным подходом к мапперу. Он включает в себя фуссирование информации из двух визуальных энкодеров, что позволяет увеличить количество семантических и темпоральных данных. В качестве латентного пространства для синтеза аудио используется GPT-2, что позволяет улучшить автокодирование и горизонтальное выравнивание между визуальными и аудио моделями. Это подход гарантирует более плавный переход между различными стилямми аудио-визуальных сигналов, чем в предыдущих моделях. Такая архитектура позволяет эффективно использовать преимущества FMs, уменьшая требования к вычислительным ресурсам. #### Результаты Проведенные эксперименты показали, что MFM-Mapper получает значительные улучшения в семантической и темпоральной консистенции с COMPARISON_WITH_BASELINE 16\% тренировочных данных (MSME_TRIPLETS), по сравнению с предыдущими моделями. Модель демонстрирует лучшую стабильность и точность в своих прогнозах, чтобы обеспечить эффективное преобразование видео в аудио. Это означает, что MFM-Mapper имеет большую эффективность, не теряя в качестве результатов. #### Значимость Модель MFM-Mapper может быть применена в различных областях, таких как разработка аудио-видео синтеза, видео-анализ и создание звуков для игр и мультимедиа. Она предлагает значительные преимущества, такие как эффективность, точность и гибкость. Это может привести к развитию новых технологий для видео-аудио-синтеза, что может быть полезно в различных профессиональных и технологических областях. #### Выводы MFM-Mapper демонстрирует новую эффективность в подходе к V2A, которая может быть использована для разных целей. Будущие исследования могут направляться на расширение применения MFM-Mapper к другим типам данных и моделей, а также на улучшение методов кодирования и декодирования в данной области.

Abstract

Recent Video-to-Audio (V2A) generation relies on extracting semantic and temporal features from video to condition generative models. Training these models from scratch is resource intensive. Consequently, leveraging foundation models (FMs) has gained traction due to their cross-modal knowledge transfer and generalization capabilities. One prior work has explored fine-tuning a lightweight mapper network to connect a pre-trained visual encoder with a text-to-audio generation model for V2A. Inspired by this, we introduce the Multiple Foundation Model Mapper (MFM-Mapper). Compared to the previous mapper approach, MFM-Mapper benefits from richer semantic and temporal information by fusing features from dual visual encoders. Furthermore, by replacing a linear mapper with GPT-2, MFM-Mapper improves feature alignment, drawing parallels between cross-modal features mapping and autoregressive translation tasks. Our MFM-Mapper exhibits remarkable training efficiency. It achieves better performance in semantic and temporal consistency with fewer training consuming, requiring only 16\% of the training scale compared to previous mapper-based work, yet achieves competitive performance with models trained on a much larger scale.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Audio-Assisted Face Video Restoration with Temporal and Identity Complementary L...

Навигация