SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models

2509.15536v1 cs.CV, cs.RO 2025-09-23
Авторы:

Sen Wang, Jingyi Tian, Le Wang, Zhimin Liao, Jiayi Li, Huaiyi Dong, Kun Xia, Sanping Zhou, Wei Tang, Hua Gang

Резюме на русском

## Контекст Область исследования сосредоточена на развитии методов для создания генерируемых моделей мира, которые позволяют агентам прогнозировать последствия своих действий в условиях прикладных задач, таких как планирование, управление и решения с телом дальнейших шагов. Несмотря на прогресс в этой области, существующие модели сталкиваются со сложностями в сохранении пространственной локальности, эффективной декодирования и точном моделировании движения. Эти проблемы приводят к дискретизации и неестественности генерируемых видеосцен. Исследователи стремятся к развитию авторегрессионных систем, которые могут эффективно обходить эти трудности, обеспечивая как качественные, так и эффективные результаты. ## Метод Предлагаемая методология, **SAMPO (Scale-wise Autoregression with Motion PrOmpt)**, является современным гибридным подходом, который объединяет авторегрессионную модель для генерации кадров внутри кадра с применением распределенной модели движения для прогнозирования следующих кадров. Система использует **траекторий-активированный модуль движения**, который фокусирует внимание на динамических областях, и **асимметричный многомасштабный токенизатор**, который сохраняет детали пространства в наблюдаемых кадрах и эффективно выделяет динамические представления. Такой подход позволяет совместить высокую эффективность расчетов с качественно выраженной структурой и динамикой визуальных сцен. ## Результаты Исследователи проводили многочисленные эксперименты для оценки качества генерируемого видео. Они использовали различные датасеты для видеопредсказания в зависимости от действий. Результаты показали, что SAMPO обеспечивает высокую точность в описании динамики сцен, в то же время улучшая качество генерации с 4.4 раз быстреей инференцией по сравнению с конкурентными моделями. Также проведены тесты на нулевой генеральный контроль, подтверждающие хорошую общинность и устойчивость модели в различных условиях. ## Значимость Модель SAMPO имеет широкие потенциальные применения в области осмысленных интерактивных систем, включая системы управления, а также в машинном зрении и прогнозировании в средах с развитым движением. Основное преимущество SAMPO заключается в ее способности сочетать эффективность и качество в генерации сцен, улучшая производительность и целостность визуальных моделей. Это может привести к улучшению контроля в искусственных агентах, более реалистичной моделированию визуального окружения, и, в целом, к повышению качества приложений, основанных на имитации реального мира. ## Выводы Статья SAMPO представляет собой новую модель генери

Abstract

World models allow agents to simulate the consequences of actions in imagined environments for planning, control, and long-horizon decision-making. However, existing autoregressive world models struggle with visually coherent predictions due to disrupted spatial structure, inefficient decoding, and inadequate motion modeling. In response, we propose \textbf{S}cale-wise \textbf{A}utoregression with \textbf{M}otion \textbf{P}r\textbf{O}mpt (\textbf{SAMPO}), a hybrid framework that combines visual autoregressive modeling for intra-frame generation with causal modeling for next-frame generation. Specifically, SAMPO integrates temporal causal decoding with bidirectional spatial attention, which preserves spatial locality and supports parallel decoding within each scale. This design significantly enhances both temporal consistency and rollout efficiency. To further improve dynamic scene understanding, we devise an asymmetric multi-scale tokenizer that preserves spatial details in observed frames and extracts compact dynamic representations for future frames, optimizing both memory usage and model performance. Additionally, we introduce a trajectory-aware motion prompt module that injects spatiotemporal cues about object and robot trajectories, focusing attention on dynamic regions and improving temporal consistency and physical realism. Extensive experiments show that SAMPO achieves competitive performance in action-conditioned video prediction and model-based control, improving generation quality with 4.4$\times$ faster inference. We also evaluate SAMPO's zero-shot generalization and scaling behavior, demonstrating its ability to generalize to unseen tasks and benefit from larger model sizes.

Ссылки и действия