VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module

2509.17022v1 cs.MM, cs.CV, cs.SD, eess.AS 2025-09-24

Авторы:

Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen

Резюме на русском

## Контекст Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирования. Однако точное удаление объектов и соответствующих им звуков из видео, не вредя остальной части сцены, остается сложной проблемой. Традиционные подходы часто не удавались в полной синхронизации между видео и аудио. В этом исследовании мы предлагаем VAInpaint — новую методологию, которая объединяет мощь машинного обучения, видео- и аудио-инпейнтинга, чтобы решить эту проблему. ## Метод VAInpaint состоит из нескольких модулей, которые обрабатывают видео и аудио с разными уровнями детализации. На первом этапе используется модель сегментации для генерации масок, отражающих области для удаления. Затем, модель inpainting видео восстанавливает удаленные области, принимая во внимание маски. Для аудио-входа, мы разработали текстово-управляемую модель сепарации, которая использует глобальные и региональные описания, сгенерированные глубокими моделями текстового понимания (LLM). Модель LLM обрабатывает общую информацию о сцене и разбирает детали регионального контента. Наконец, все входы обрабатываются моделью inpainting видео и аудио, чтобы восстановить пропущенные части. ## Результаты Мы проверили нашу модель на широком диапазоне сцен и задач видео- и аудио-вставок. Наши эксперименты показали, что VAInpaint достигает результатов, которые соответствуют или превосходят текущие лучшие решения в области inpainting. Мы также проверили эффективность нашей модели в разных условиях, включая видео с большим количеством движения и сложным аудио-содержимым. Особое внимание уделено тому, что модель VAInpaint обеспечивает высокую синхронизацию между видео и аудио. ## Значимость Наше решение может применяться в различных областях, таких как редактирование видео, виртуальная реальность, и музыкальное видео. Оно предлагает улучшенную точность и синхронизацию, что делает его полезным в различных профессиональных приложениях, включая трансляции, рекламу и домашнее видео-редактирование. Метод VAInpaint также открывает новые возможности для видео-анализа, динамического контента, и искусственного интеллекта в мультимедиа. ## Выводы Мы предлагаем VAInpaint — новую мощную методологию для видео- и аудио-вставок, которая использует модели LLM для генерации текстовых запросов. Мы продемонстрировали, что наш подход является эффективным и надежным в различных условиях, показав высокую точность и качество восстановления. В следующих исследованиях мы планируем расширить нашу модель для работы с более сложными видео и а

Abstract

Video and audio inpainting for mixed audio-visual content has become a crucial task in multimedia editing recently. However, precisely removing an object and its corresponding audio from a video without affecting the rest of the scene remains a significant challenge. To address this, we propose VAInpaint, a novel pipeline that first utilizes a segmentation model to generate masks and guide a video inpainting model in removing objects. At the same time, an LLM then analyzes the scene globally, while a region-specific model provides localized descriptions. Both the overall and regional descriptions will be inputted into an LLM, which will refine the content and turn it into text queries for our text-driven audio separation model. Our audio separation model is fine-tuned on a customized dataset comprising segmented MUSIC instrument images and VGGSound backgrounds to enhance its generalization performance. Experiments show that our method achieves performance comparable to current benchmarks in both audio and video inpainting.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation

AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recog...

Навигация