KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models
2509.21027v1
cs.RO, cs.CV
2025-09-27
Авторы:
Sibo Li, Qianyue Hao, Yu Shang, Yong Li
Резюме на русском
## Контекст
Роботические world models являются перспективным подходом для прогнозирования будущих состояний окружающей среды. Однако два основных ограничения существуют в существующих системах: неэффективность процесса оптимизации и недостаточная физическая правдоподобность полученных траекторий. Эти проблемы возникают из-за распространенного подхода frame-to-frame generation, когда модель выполняет дорогостоящие вычисления над похожими кадрами, не учитывая их семантическую важность. Это приводит к значительным затратам ресурсов на ненужные вычисления. Другой важный аспект — недостаточная учет семантической значимости ключевых моментов между кадрами, что снижает качество генерируемых траекторий. Наша мотивация заключается в разработке эффективного и эффектного метода, который устраняет эти проблемы, сделав world models более пригодными для реальных приложений.
## Метод
Мы предлагаем KeyWorld, рамочную модель для текстово-зависимых world models, которая сосредотачивает вычисления трансформеров на ключевых моментах роботической траектории. Основной идеей является уменьшение затрат с помощью идентификации ключевых моментов полосы посредством итеративного упрощения динамики робота. Мы используем DiT-модель (Diffusion Transformer), которая обучается для логического вывода и генерации этих ключевых моментов из текстовых заданий. Наконец, мы применяем легковесную нейронную сеть с восстановлением информации (inpainting) для эффективной реконструкции полного видео, включая все промежуточные кадры. Эта архитектура позволяет сохранить физическую правдоподобность и существенно ускорить расчеты, делая KeyWorld более эффективным в реальном времени.
## Результаты
Мы проводили эксперименты на бенчмарке LIBERO, сравнивая KeyWorld с традиционным подходом frame-to-frame generation. Наши результаты показали, что KeyWorld увеличивает скорость вычислений примерно в 5.68 раз, сильно экономя ресурсы. Благодаря фокусировке на ключевых моментах, KeyWorld также показал значительное улучшение в физической правдоподобности генерируемых траекторий, особенно при решении сложных задач. Эти результаты подтверждают, что наш подход эффективно решает проблемы неэффективности и недостаточной правдоподобности в области world models.
## Значимость
KeyWorld может применяться во многих областях, в частности в real-time robotic control, где необходима высокая скорость и точность расчетов. Он также может быть оптимизирован для других задач, требующих эффективного и правдоподобного прогнозирования траекторий. Наш подход не только ускоряет процесс, но и повышает качество прогнозов, что делает его привлекательным для применения в реальных си
Abstract
Robotic world models are a promising paradigm for forecasting future
environment states, yet their inference speed and the physical plausibility of
generated trajectories remain critical bottlenecks, limiting their real-world
applications. This stems from the redundancy of the prevailing frame-to-frame
generation approach, where the model conducts costly computation on similar
frames, as well as neglecting the semantic importance of key transitions. To
address this inefficiency, we propose KeyWorld, a framework that improves
text-conditioned robotic world models by concentrating transformers computation
on a few semantic key frames while employing a lightweight convolutional model
to fill the intermediate frames. Specifically, KeyWorld first identifies
significant transitions by iteratively simplifying the robot's motion
trajectories, obtaining the ground truth key frames. Then, a DiT model is
trained to reason and generate these physically meaningful key frames from
textual task descriptions. Finally, a lightweight interpolator efficiently
reconstructs the full video by inpainting all intermediate frames. Evaluations
on the LIBERO benchmark demonstrate that KeyWorld achieves a 5.68$\times$
acceleration compared to the frame-to-frame generation baseline, and focusing
on the motion-aware key frames further contributes to the physical validity of
the generated videos, especially on complex tasks. Our approach highlights a
practical path toward deploying world models in real-time robotic control and
other domains requiring both efficient and effective world models. Code is
released at https://anonymous.4open.science/r/Keyworld-E43D.
Ссылки и действия
Дополнительные ресурсы: