ROSE: Remove Objects with Side Effects in Videos

2508.18633v1 cs.CV, cs.AI, cs.LG 2025-08-28

Авторы:

Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

Резюме на русском

## Контекст Объектное удаление в видео становится все более важной задачей в области компьютерного зрения, особенно с увеличением объемов видеоконтента. Несмотря на прогресс, достигнутый в последнее время за счет развития видео-генерирующих моделей, существуют значительные проблемы. Особенно сложно удалять не только объект, но и все его побочные эффекты, такие как тени, отражения, свет, прозрачность и зеркальные отражения. Эти эффекты часто остаются незаметными в моделях, требуя более тонких подходов. В этом контексте важно развить методы, которые могут адекватно справляться с этими задачами, учитывая ограниченность доступных данных для обучения. ## Метод РОСЕ (Remove Objects with Side Effects) представляет собой инновационный подход к удалению объектов с эффектами, окружающих его в видео. Данная модель основывается на идее искусственного интеллекта и синтетической ситуации для создания парных данных. Используя 3D-реndеринг, проект сформировал большую выборку синтетических данных, включающую различные сцены, объекты, углы кадров и движения камеры. Модель ROSE опирается на технологию diffusion transformer, алгоритм, который базируется на распространении сигналов и глубоком обучении. Ключевым элементом является возможность локализовать объекты и их побочные эффекты в кадре. Для этого вводится дополнительная супервизия, которая позволяет определять активные зоны, влияющие на окружающую среду. ## Результаты С помощью тщательного экспериментального подхода было проанализировано поведение модели на разных сценах. Для этого была создана выборка ROSE-Bench, включающая в себя не только типичные сцены, но и сцены с указанными специфическими побочными эффектами. Результаты указывают на значительное превосходство модели ROSE по сравнению с другими моделями видео-инпинтинга. Она способна добротно удалять не только объект, но и все его побочные эффекты, предоставляя результаты, которые хорошо адаптируются к реальным видео. ## Значимость Модель ROSE может быть применена в различных областях, где необходимо удаление объектов с побочными эффектами, таких как видеоредактирование, монтаж, а также видео-анализ и синтез. Она показала свою мощь в том, чтобы обеспечивать точность и качество в решении сложных задач, нацеленных на создание продуктивных, реалистичных видео. Более того, этот подход может быть расширен на другие задачи, связанные с обработкой видео и визуальным анализом. ## Выводы РОСЕ достигла значительных успехов в решении проблемы удаления объектов с побочными эффектами в видео. Основные достижения состоят в развитии новой технологии

Abstract

Video object removal has achieved advanced performance due to the recent success of video generative models. However, when addressing the side effects of objects, e.g., their shadows and reflections, existing works struggle to eliminate these effects for the scarcity of paired video data as supervision. This paper presents ROSE, termed Remove Objects with Side Effects, a framework that systematically studies the object's effects on environment, which can be categorized into five common cases: shadows, reflections, light, translucency and mirror. Given the challenges of curating paired videos exhibiting the aforementioned effects, we leverage a 3D rendering engine for synthetic data generation. We carefully construct a fully-automatic pipeline for data preparation, which simulates a large-scale paired dataset with diverse scenes, objects, shooting angles, and camera trajectories. ROSE is implemented as an video inpainting model built on diffusion transformer. To localize all object-correlated areas, the entire video is fed into the model for reference-based erasing. Moreover, additional supervision is introduced to explicitly predict the areas affected by side effects, which can be revealed through the differential mask between the paired videos. To fully investigate the model performance on various side effect removal, we presents a new benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five special side effects for comprehensive evaluation. Experimental results demonstrate that ROSE achieves superior performance compared to existing video object erasing models and generalizes well to real-world video scenarios. The project page is https://rose2025-inpaint.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ROSE: Remove Objects with Side Effects in Videos

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация