WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance
2509.15130v1
cs.GR, cs.AI, cs.CV
2025-09-20
Авторы:
Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
Резюме на русском
## Контекст
Видеодиффузионные модели являются мощными инструментами для задач пространственной интеллектуальности, таких как 3D/4D-генерация, благодаря их богатым латентным мировым представлениям. Однако их потенциал существенно ограничен недостаточной контролируемостью и геометрической несогласованностью. Эти недостатки приводят к значительному расхождению между их сильными латентными представлениями и реальной ценностью в приложениях, требующих точного управления движением и фотореалистичным генерированием контента. Настоящие подходы часто требуют переобучения или гиперпараметрического оптимизации моделей, что приводит к потере предобученных знаний и высоким вычислительным затратам. Необходима новая архитектура, которая бы устранила эти ограничения, обеспечив точность, эффективность и сохранение знаний.
## Метод
Мы предлагаем **WorldForge**, необучаемую, временем вывода фреймворк, который состоит из трех интегрированных модулей. **Intra-Step Recursive Refinement** вводит рекурсивный механизм оптимизации сетевых предсказаний внутри каждого шага денойсинга, что позволяет внедрять точные траектории. **Flow-Gated Latent Fusion** использует сходство оптического потока для разделения движения от визуального внешнего вида в латентном пространстве, чтобы выбирать узлы для внедрения траектории. **Dual-Path Self-Corrective Guidance** сравнивает руководящие и неруководящие пути денойсинга, чтобы адаптивно исправлять дрейф траекторий, вызванный шумом или несоответствием структуры. Эти модули работают вместе, чтобы внедрить тонконосимультные, траекторию-ориентированные предсказания без необходимости переучивания, обеспечив точность управления движением и фотореалистичность генерируемого контента.
## Результаты
Мы проверили WorldForge на нескольких тестовых наборах данных для задач 3D/4D-генерации и показали его превосходство по сравнению с современными методами по нескольким ключевым показателям: реализм, консистентность траектории и визуальная фидлити. Наши эксперименты демонстрируют, что метод обеспечивает точное управление движением, значительно лучше текущих подходов, которые зависят от переучивания и требуют высоких вычислительных затрат. Это доказывает сильную эффективность и практическую ценность нашего подхода в задачах управляемой генерации видео.
## Значимость
WorldForge открывает новые горизонты для применения видеодиффузионных моделей в многочисленных задачах пространственной интеллектуальности, таких как синтез видео, анимация, виртуальная реальность и 3D-моделирование. В отличие от предыдущих подходов, он
Abstract
Recent video diffusion models demonstrate strong potential in spatial
intelligence tasks due to their rich latent world priors. However, this
potential is hindered by their limited controllability and geometric
inconsistency, creating a gap between their strong priors and their practical
use in 3D/4D tasks. As a result, current approaches often rely on retraining or
fine-tuning, which risks degrading pretrained knowledge and incurs high
computational costs. To address this, we propose WorldForge, a training-free,
inference-time framework composed of three tightly coupled modules. Intra-Step
Recursive Refinement introduces a recursive refinement mechanism during
inference, which repeatedly optimizes network predictions within each denoising
step to enable precise trajectory injection. Flow-Gated Latent Fusion leverages
optical flow similarity to decouple motion from appearance in the latent space
and selectively inject trajectory guidance into motion-related channels.
Dual-Path Self-Corrective Guidance compares guided and unguided denoising paths
to adaptively correct trajectory drift caused by noisy or misaligned structural
signals. Together, these components inject fine-grained, trajectory-aligned
guidance without training, achieving both accurate motion control and
photorealistic content generation. Extensive experiments across diverse
benchmarks validate our method's superiority in realism, trajectory
consistency, and visual fidelity. This work introduces a novel plug-and-play
paradigm for controllable video synthesis, offering a new perspective on
leveraging generative priors for spatial intelligence.
Ссылки и действия
Дополнительные ресурсы: