VAInpaint: Zero-Shot Video-Audio inpainting framework with LLMs-driven Module
2509.17022v1
cs.MM, cs.CV, cs.SD, eess.AS
2025-09-24
Авторы:
Kam Man Wu, Zeyue Tian, Liya Ji, Qifeng Chen
Резюме на русском
## Контекст
Восстановление пропущенных частей видео и аудио является ключевым заданием в области мультимедиа-редактирования. Однако точное удаление объектов и соответствующих им звуков из видео, не вредя остальной части сцены, остается сложной проблемой. Традиционные подходы часто не удавались в полной синхронизации между видео и аудио. В этом исследовании мы предлагаем VAInpaint — новую методологию, которая объединяет мощь машинного обучения, видео- и аудио-инпейнтинга, чтобы решить эту проблему.
## Метод
VAInpaint состоит из нескольких модулей, которые обрабатывают видео и аудио с разными уровнями детализации. На первом этапе используется модель сегментации для генерации масок, отражающих области для удаления. Затем, модель inpainting видео восстанавливает удаленные области, принимая во внимание маски. Для аудио-входа, мы разработали текстово-управляемую модель сепарации, которая использует глобальные и региональные описания, сгенерированные глубокими моделями текстового понимания (LLM). Модель LLM обрабатывает общую информацию о сцене и разбирает детали регионального контента. Наконец, все входы обрабатываются моделью inpainting видео и аудио, чтобы восстановить пропущенные части.
## Результаты
Мы проверили нашу модель на широком диапазоне сцен и задач видео- и аудио-вставок. Наши эксперименты показали, что VAInpaint достигает результатов, которые соответствуют или превосходят текущие лучшие решения в области inpainting. Мы также проверили эффективность нашей модели в разных условиях, включая видео с большим количеством движения и сложным аудио-содержимым. Особое внимание уделено тому, что модель VAInpaint обеспечивает высокую синхронизацию между видео и аудио.
## Значимость
Наше решение может применяться в различных областях, таких как редактирование видео, виртуальная реальность, и музыкальное видео. Оно предлагает улучшенную точность и синхронизацию, что делает его полезным в различных профессиональных приложениях, включая трансляции, рекламу и домашнее видео-редактирование. Метод VAInpaint также открывает новые возможности для видео-анализа, динамического контента, и искусственного интеллекта в мультимедиа.
## Выводы
Мы предлагаем VAInpaint — новую мощную методологию для видео- и аудио-вставок, которая использует модели LLM для генерации текстовых запросов. Мы продемонстрировали, что наш подход является эффективным и надежным в различных условиях, показав высокую точность и качество восстановления. В следующих исследованиях мы планируем расширить нашу модель для работы с более сложными видео и а
Abstract
Video and audio inpainting for mixed audio-visual content has become a
crucial task in multimedia editing recently. However, precisely removing an
object and its corresponding audio from a video without affecting the rest of
the scene remains a significant challenge. To address this, we propose
VAInpaint, a novel pipeline that first utilizes a segmentation model to
generate masks and guide a video inpainting model in removing objects. At the
same time, an LLM then analyzes the scene globally, while a region-specific
model provides localized descriptions. Both the overall and regional
descriptions will be inputted into an LLM, which will refine the content and
turn it into text queries for our text-driven audio separation model. Our audio
separation model is fine-tuned on a customized dataset comprising segmented
MUSIC instrument images and VGGSound backgrounds to enhance its generalization
performance. Experiments show that our method achieves performance comparable
to current benchmarks in both audio and video inpainting.