Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper
2509.04957v1
cs.CV, cs.MM, cs.SD, eess.AS
2025-09-09
Авторы:
Gehui Chen, Guan'an Wang, Xiaowen Huang, Jitao Sang
Резюме на русском
#### Контекст
Тема исследования — Efficient Video-to-Audio (V2A) Generation via Multiple Foundation Models Mapper — затрагивает адаптацию изображений видео в аудиосигналы с использованием множества основных моделей. Традиционный подход к V2A требует значительных ресурсов для обучения моделей, что ограничивает их применение. Новые методы, основанные на многоцелевых моделях (foundation models, FMs), позволяют передавать полезные свойства из одной модели в другую, уменьшая необходимость в тренировочных данных. Данная работа отвечает на рост интереса к эффективному использованию FMs в области V2A.
#### Метод
MFM-Mapper является усовершенствованным подходом к мапперу. Он включает в себя фуссирование информации из двух визуальных энкодеров, что позволяет увеличить количество семантических и темпоральных данных. В качестве латентного пространства для синтеза аудио используется GPT-2, что позволяет улучшить автокодирование и горизонтальное выравнивание между визуальными и аудио моделями. Это подход гарантирует более плавный переход между различными стилямми аудио-визуальных сигналов, чем в предыдущих моделях. Такая архитектура позволяет эффективно использовать преимущества FMs, уменьшая требования к вычислительным ресурсам.
#### Результаты
Проведенные эксперименты показали, что MFM-Mapper получает значительные улучшения в семантической и темпоральной консистенции с COMPARISON_WITH_BASELINE 16\% тренировочных данных (MSME_TRIPLETS), по сравнению с предыдущими моделями. Модель демонстрирует лучшую стабильность и точность в своих прогнозах, чтобы обеспечить эффективное преобразование видео в аудио. Это означает, что MFM-Mapper имеет большую эффективность, не теряя в качестве результатов.
#### Значимость
Модель MFM-Mapper может быть применена в различных областях, таких как разработка аудио-видео синтеза, видео-анализ и создание звуков для игр и мультимедиа. Она предлагает значительные преимущества, такие как эффективность, точность и гибкость. Это может привести к развитию новых технологий для видео-аудио-синтеза, что может быть полезно в различных профессиональных и технологических областях.
#### Выводы
MFM-Mapper демонстрирует новую эффективность в подходе к V2A, которая может быть использована для разных целей. Будущие исследования могут направляться на расширение применения MFM-Mapper к другим типам данных и моделей, а также на улучшение методов кодирования и декодирования в данной области.
Abstract
Recent Video-to-Audio (V2A) generation relies on extracting semantic and
temporal features from video to condition generative models. Training these
models from scratch is resource intensive. Consequently, leveraging foundation
models (FMs) has gained traction due to their cross-modal knowledge transfer
and generalization capabilities. One prior work has explored fine-tuning a
lightweight mapper network to connect a pre-trained visual encoder with a
text-to-audio generation model for V2A. Inspired by this, we introduce the
Multiple Foundation Model Mapper (MFM-Mapper). Compared to the previous mapper
approach, MFM-Mapper benefits from richer semantic and temporal information by
fusing features from dual visual encoders. Furthermore, by replacing a linear
mapper with GPT-2, MFM-Mapper improves feature alignment, drawing parallels
between cross-modal features mapping and autoregressive translation tasks. Our
MFM-Mapper exhibits remarkable training efficiency. It achieves better
performance in semantic and temporal consistency with fewer training consuming,
requiring only 16\% of the training scale compared to previous mapper-based
work, yet achieves competitive performance with models trained on a much larger
scale.