Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
2508.07981v2
cs.CV, cs.AI
2025-08-13
Авторы:
Fangyuan Mao, Aiming Hao, Jintao Chen, Dongxia Liu, Xiaokun Feng, Jiashu Zhu, Meiqi Wu, Chubin Chen, Jiahong Wu, Xiangxiang Chu
Резюме на русском
#################################
## Контекст
#################################
Визуальные эффекты (Visual Effects, VFX) являются ключевым компонентом современного кинематографа, добавляя натуральность и животность к изображениям. Изначально, эти эффекты были создаваемыми ручками разработчиков, но в последние годы появились методы, позволяющие использовать модели генерации видео для создания эффектов. Тем не менее, существующие модели строятся на архитектуре LoRA (Low-Rank Adaptation) и требуют подготовки отдельных моделей для каждого эффекта, что ограничивает их мощность. Эта проблема вызывает необходимость в разработке универсальной модели, которая способна генерировать несколько эффектов одновременно и контролировать их расположение в изображении. Таким образом, целью данных исследований является создание модели, которая может объединить различные эффекты в единую модель и обеспечить их контроль в пространстве.
#################################
## Метод
#################################
Разработанная модель Omni-Effects представляет собой впервые созданную архитектуру, способную генерировать несколько визуальных эффектов одновременно и контролировать их положение в изображении. Основой модели является LoRA-based Mixture of Experts (LoRA-MoE), которая соединяет различные эффекты в единую модель, минимизируя влияние пространственного разделения между ними. Для повышения контрольности, введена Spatial-Aware Prompt (SAP), которая внедряет информацию о масках в текстовые токены, что позволяет контролировать расположение эффектов в пространстве. Также, внутри SAP используется Independent-Information Flow (IIF), который изолирует сигналы управления для каждого эффекта, чтобы избежать смешения сигналов. Датасет для обучения и тестирования Omni-Effects был создан с помощью собственной технологии FLF2V, которая объединяет изображения и видео для создания датасета VFX.
#################################
## Результаты
#################################
Для проверки работы модели Omni-Effects был проведен набор экспериментов с использованием сгенерированного датасета Omni-VFX. Модель имела высокую точность в пространственном разместивании эффектов и способность генерировать различные эффекты, включая единичные и комбинированные. Гибкость и точность работы демонстрируются на примерах генерации таких эффектов, как затенение, огонь и ночной освещенный режим. Основным достижением является удачное решение проблем выделения пространственного размещения эффектов и уменьшения влияния между ними в единой модели.
#################################
## Значимость
#################################
Модель Omni-Effects открывает новые возможности в области визуальных эффектов, позволяя создавать кинематографические эффекты в реальном времени. Это решение может быть применено в различных областях, включая кино, игры, рекламу и AR-
Abstract
Visual effects (VFX) are essential visual enhancements fundamental to modern
cinematic production. Although video generation models offer cost-efficient
solutions for VFX production, current methods are constrained by per-effect
LoRA training, which limits generation to single effects. This fundamental
limitation impedes applications that require spatially controllable composite
effects, i.e., the concurrent generation of multiple effects at designated
locations. However, integrating diverse effects into a unified framework faces
major challenges: interference from effect variations and spatial
uncontrollability during multi-VFX joint training. To tackle these challenges,
we propose Omni-Effects, a first unified framework capable of generating
prompt-guided effects and spatially controllable composite effects. The core of
our framework comprises two key innovations: (1) LoRA-based Mixture of Experts
(LoRA-MoE), which employs a group of expert LoRAs, integrating diverse effects
within a unified model while effectively mitigating cross-task interference.
(2) Spatial-Aware Prompt (SAP) incorporates spatial mask information into the
text token, enabling precise spatial control. Furthermore, we introduce an
Independent-Information Flow (IIF) module integrated within the SAP, isolating
the control signals corresponding to individual effects to prevent any unwanted
blending. To facilitate this research, we construct a comprehensive VFX dataset
Omni-VFX via a novel data collection pipeline combining image editing and
First-Last Frame-to-Video (FLF2V) synthesis, and introduce a dedicated VFX
evaluation framework for validating model performance. Extensive experiments
demonstrate that Omni-Effects achieves precise spatial control and diverse
effect generation, enabling users to specify both the category and location of
desired effects.
Ссылки и действия
Дополнительные ресурсы: