SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models
2509.15536v1
cs.CV, cs.RO
2025-09-23
Авторы:
Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang
Резюме на русском
## Контекст
Область исследования сосредоточена на развитии методов для создания генерируемых моделей мира, которые позволяют агентам прогнозировать последствия своих действий в условиях прикладных задач, таких как планирование, управление и решения с телом дальнейших шагов. Несмотря на прогресс в этой области, существующие модели сталкиваются со сложностями в сохранении пространственной локальности, эффективной декодирования и точном моделировании движения. Эти проблемы приводят к дискретизации и неестественности генерируемых видеосцен. Исследователи стремятся к развитию авторегрессионных систем, которые могут эффективно обходить эти трудности, обеспечивая как качественные, так и эффективные результаты.
## Метод
Предлагаемая методология, **SAMPO (Scale-wise Autoregression with Motion PrOmpt)**, является современным гибридным подходом, который объединяет авторегрессионную модель для генерации кадров внутри кадра с применением распределенной модели движения для прогнозирования следующих кадров. Система использует **траекторий-активированный модуль движения**, который фокусирует внимание на динамических областях, и **асимметричный многомасштабный токенизатор**, который сохраняет детали пространства в наблюдаемых кадрах и эффективно выделяет динамические представления. Такой подход позволяет совместить высокую эффективность расчетов с качественно выраженной структурой и динамикой визуальных сцен.
## Результаты
Исследователи проводили многочисленные эксперименты для оценки качества генерируемого видео. Они использовали различные датасеты для видеопредсказания в зависимости от действий. Результаты показали, что SAMPO обеспечивает высокую точность в описании динамики сцен, в то же время улучшая качество генерации с 4.4 раз быстреей инференцией по сравнению с конкурентными моделями. Также проведены тесты на нулевой генеральный контроль, подтверждающие хорошую общинность и устойчивость модели в различных условиях.
## Значимость
Модель SAMPO имеет широкие потенциальные применения в области осмысленных интерактивных систем, включая системы управления, а также в машинном зрении и прогнозировании в средах с развитым движением. Основное преимущество SAMPO заключается в ее способности сочетать эффективность и качество в генерации сцен, улучшая производительность и целостность визуальных моделей. Это может привести к улучшению контроля в искусственных агентах, более реалистичной моделированию визуального окружения, и, в целом, к повышению качества приложений, основанных на имитации реального мира.
## Выводы
Статья SAMPO представляет собой новую модель генери
Abstract
World models allow agents to simulate the consequences of actions in imagined
environments for planning, control, and long-horizon decision-making. However,
existing autoregressive world models struggle with visually coherent
predictions due to disrupted spatial structure, inefficient decoding, and
inadequate motion modeling. In response, we propose \textbf{S}cale-wise
\textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt
(\textbf{SAMPO}), a hybrid framework that combines visual autoregressive
modeling for intra-frame generation with causal modeling for next-frame
generation. Specifically, SAMPO integrates temporal causal decoding with
bidirectional spatial attention, which preserves spatial locality and supports
parallel decoding within each scale. This design significantly enhances both
temporal consistency and rollout efficiency. To further improve dynamic scene
understanding, we devise an asymmetric multi-scale tokenizer that preserves
spatial details in observed frames and extracts compact dynamic representations
for future frames, optimizing both memory usage and model performance.
Additionally, we introduce a trajectory-aware motion prompt module that injects
spatiotemporal cues about object and robot trajectories, focusing attention on
dynamic regions and improving temporal consistency and physical realism.
Extensive experiments show that SAMPO achieves competitive performance in
action-conditioned video prediction and model-based control, improving
generation quality with 4.4$\times$ faster inference. We also evaluate SAMPO's
zero-shot generalization and scaling behavior, demonstrating its ability to
generalize to unseen tasks and benefit from larger model sizes.
Ссылки и действия
Дополнительные ресурсы: