KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models

2509.21027v1 cs.RO, cs.CV 2025-09-27
Авторы:

Sibo Li, Qianyue Hao, Yu Shang, Yong Li

Резюме на русском

## Контекст Роботические world models являются перспективным подходом для прогнозирования будущих состояний окружающей среды. Однако два основных ограничения существуют в существующих системах: неэффективность процесса оптимизации и недостаточная физическая правдоподобность полученных траекторий. Эти проблемы возникают из-за распространенного подхода frame-to-frame generation, когда модель выполняет дорогостоящие вычисления над похожими кадрами, не учитывая их семантическую важность. Это приводит к значительным затратам ресурсов на ненужные вычисления. Другой важный аспект — недостаточная учет семантической значимости ключевых моментов между кадрами, что снижает качество генерируемых траекторий. Наша мотивация заключается в разработке эффективного и эффектного метода, который устраняет эти проблемы, сделав world models более пригодными для реальных приложений. ## Метод Мы предлагаем KeyWorld, рамочную модель для текстово-зависимых world models, которая сосредотачивает вычисления трансформеров на ключевых моментах роботической траектории. Основной идеей является уменьшение затрат с помощью идентификации ключевых моментов полосы посредством итеративного упрощения динамики робота. Мы используем DiT-модель (Diffusion Transformer), которая обучается для логического вывода и генерации этих ключевых моментов из текстовых заданий. Наконец, мы применяем легковесную нейронную сеть с восстановлением информации (inpainting) для эффективной реконструкции полного видео, включая все промежуточные кадры. Эта архитектура позволяет сохранить физическую правдоподобность и существенно ускорить расчеты, делая KeyWorld более эффективным в реальном времени. ## Результаты Мы проводили эксперименты на бенчмарке LIBERO, сравнивая KeyWorld с традиционным подходом frame-to-frame generation. Наши результаты показали, что KeyWorld увеличивает скорость вычислений примерно в 5.68 раз, сильно экономя ресурсы. Благодаря фокусировке на ключевых моментах, KeyWorld также показал значительное улучшение в физической правдоподобности генерируемых траекторий, особенно при решении сложных задач. Эти результаты подтверждают, что наш подход эффективно решает проблемы неэффективности и недостаточной правдоподобности в области world models. ## Значимость KeyWorld может применяться во многих областях, в частности в real-time robotic control, где необходима высокая скорость и точность расчетов. Он также может быть оптимизирован для других задач, требующих эффективного и правдоподобного прогнозирования траекторий. Наш подход не только ускоряет процесс, но и повышает качество прогнозов, что делает его привлекательным для применения в реальных си

Abstract

Robotic world models are a promising paradigm for forecasting future environment states, yet their inference speed and the physical plausibility of generated trajectories remain critical bottlenecks, limiting their real-world applications. This stems from the redundancy of the prevailing frame-to-frame generation approach, where the model conducts costly computation on similar frames, as well as neglecting the semantic importance of key transitions. To address this inefficiency, we propose KeyWorld, a framework that improves text-conditioned robotic world models by concentrating transformers computation on a few semantic key frames while employing a lightweight convolutional model to fill the intermediate frames. Specifically, KeyWorld first identifies significant transitions by iteratively simplifying the robot's motion trajectories, obtaining the ground truth key frames. Then, a DiT model is trained to reason and generate these physically meaningful key frames from textual task descriptions. Finally, a lightweight interpolator efficiently reconstructs the full video by inpainting all intermediate frames. Evaluations on the LIBERO benchmark demonstrate that KeyWorld achieves a 5.68$\times$ acceleration compared to the frame-to-frame generation baseline, and focusing on the motion-aware key frames further contributes to the physical validity of the generated videos, especially on complex tasks. Our approach highlights a practical path toward deploying world models in real-time robotic control and other domains requiring both efficient and effective world models. Code is released at https://anonymous.4open.science/r/Keyworld-E43D.

Ссылки и действия