LD-LAudio-V1: Video-to-Long-Form-Audio Generation Extension with Dual Lightweight Adapters
2508.11074v1
cs.SD, cs.AI, cs.CV, eess.AS
2025-08-19
Авторы:
Haomin Zhang, Kristin Qi, Shuxin Yang, Zihao Chen, Chaofan Ding, Xinhan Di
Резюме на русском
## Контекст
Генерация высококачественных и темпорально синхронных аудио файлов из видео является ключевым заданием для видеоредактирования и пост-продакшн. Такой подход позволяет создавать семантически согласованный аудио контент для сильно мультимедийных проектов. Несмотря на прогрессы в области короткоформатного аудио генерирования, существующие методы сталкиваются с проблемами при генерации длительных аудио файлов. Они либо ограничены значительными помехами, либо оперируют неконтролируемыми данными, что приводит к нежелательным артефактам и временным несоответствиям. Данная работа стремится расширить возможности генерации видео-аудио для длительных видео сегментов, обеспечив также чистоту звуковых эффектов без лишних артефактов.
## Метод
Методом LD-LAudio-V1 является расширение современных моделей видео-аудио генерации. Он включает в себя два легких адаптера, которые позволяют обеспечить длительную генерацию аудио длиной до 60 секунд. Адаптеры устраняют множество проблем, связанных с настройкой моделей на длительные видео сегменты. Более того, мы представляем чистую, человекоанализированную видео-аудио сеттинг с гарантированной чистотой звуковых эффектов, которая может использоваться в задаче генерации длительных аудио файлов.
## Результаты
Мы проводили эксперименты на широком спектре тестовых данных, сравнивая наши результаты с другими моделями. Метод LD-LAudio-V1 показал значительные улучшения по многим метрикам:
- **FD_passt**: 450.00 → 327.29 (+27.27%)
- **FD_panns**: 34.88 → 22.68 (+34.98%)
- **FD_vgg**: 3.75 → 1.28 (+65.87%)
- **KL_panns**: 2.49 → 2.07 (+16.87%)
- **KL_passt**: 1.78 → 1.53 (+14.04%)
- **IS_panns**: 4.17 → 4.30 (+3.12%)
- **IB_score**: 0.25 → 0.28 (+12.00%)
- **EnergyDelta10ms**: 0.3013 → 0.1349 (+55.23%)
- **EnergyDelta10ms(vs.GT)**: 0.0531 → 0.0288 (+45.76%)
- **Sem. Rel.**: 2.73 → 3.28 (+20.15%)
Эти показатели отражают значительное сокращение артефактов и несоответствий в сравнении с другими моделями, что делает LD-LAudio-V1 более эффективным для генерации длительных видео-аудио файлов.
## Значимость
Наш подход может быть применен в многочисленных областях, включая видеомонтаж, аудио переработку и создание синтетического звука. Он значительно сокращает время и сложность процесса генерации, обеспечивая чистый и семантически мотивированный звуковой контент. Высокая точность и эффективность LD-LAudio-V1 делают его привлекательным для профессионалов в области виде
Abstract
Generating high-quality and temporally synchronized audio from video content
is essential for video editing and post-production tasks, enabling the creation
of semantically aligned audio for silent videos. However, most existing
approaches focus on short-form audio generation for video segments under 10
seconds or rely on noisy datasets for long-form video-to-audio zsynthesis. To
address these limitations, we introduce LD-LAudio-V1, an extension of
state-of-the-art video-to-audio models and it incorporates dual lightweight
adapters to enable long-form audio generation. In addition, we release a clean
and human-annotated video-to-audio dataset that contains pure sound effects
without noise or artifacts. Our method significantly reduces splicing artifacts
and temporal inconsistencies while maintaining computational efficiency.
Compared to direct fine-tuning with short training videos, LD-LAudio-V1
achieves significant improvements across multiple metrics: $FD_{\text{passt}}$
450.00 $\rightarrow$ 327.29 (+27.27%), $FD_{\text{panns}}$ 34.88 $\rightarrow$
22.68 (+34.98%), $FD_{\text{vgg}}$ 3.75 $\rightarrow$ 1.28 (+65.87%),
$KL_{\text{panns}}$ 2.49 $\rightarrow$ 2.07 (+16.87%), $KL_{\text{passt}}$ 1.78
$\rightarrow$ 1.53 (+14.04%), $IS_{\text{panns}}$ 4.17 $\rightarrow$ 4.30
(+3.12%), $IB_{\text{score}}$ 0.25 $\rightarrow$ 0.28 (+12.00%),
$Energy\Delta10\text{ms}$ 0.3013 $\rightarrow$ 0.1349 (+55.23%),
$Energy\Delta10\text{ms(vs.GT)}$ 0.0531 $\rightarrow$ 0.0288 (+45.76%), and
$Sem.\,Rel.$ 2.73 $\rightarrow$ 3.28 (+20.15%). Our dataset aims to facilitate
further research in long-form video-to-audio generation and is available at
https://github.com/deepreasonings/long-form-video2audio.