Latent Action Pretraining Through World Modeling
2509.18428v1
cs.RO, cs.CV
2025-09-25
Авторы:
Bahey Tharwat, Yara Nasser, Ali Abouzeid, Ian Reid
Резюме на русском
## Контекст
Подготовка действий в контексте визуальной и языковой обработки (Vision-Language-Action, VLA) является ключевым направлением в исследованиях по управлению роботами с использованием естественного языка. Ранее популярные VLA-модели, такие как OpenVLA и $\pi_{0}$, были обучены на больших массивах ручного маркирования действий, собранных в телеоперационных условиях. Несмотря на успех этих моделей, их требования к данным и ресурсам ограничивают их применение в реальных мировых сценариях. Более поздние подходы, включая LAPA и villa-X, предлагают новые взгляды, используя латентные представления действий для неучитываемого обучения с использованием моделей визуальных изменений в кадрах. Однако эталонные модели, такие как villa-X, значительно увеличиваются в размерах, что создает сложности при их развертывании в реальных условиях. В настоящей работе предлагается новая модель-агностичная фреймворк LAWM, которая расширяет возможности обучения с помощью латентных действий, обученных с помощью моделирования мировых процессов. Это позволяет использовать видеоролики, записанные с роботов или человеком, для эффективного и самостоятельного обучения моделей видео-робот-действия к подаче языковых инструкций.
## Метод
Методология LAWM включает в себя создание латентных представлений действий с помощью моделирования мировых процессов. Фреймворк использует неучитываемый подход к обучению, где видеоролики, записанные роботами или людьми, служат основой для извлечения действий. Моделирование мировых процессов позволяет извлекать латентные представления действий, которые могут быть использованы для предсказания дальнейших действий. Особенностью LAWM является его модельно-агностичный характер, что позволяет применять фреймворк к различным моделям и средам. Моделирование мировых процессов основано на автоэнкодере, который извлекает латентные действия, приведенные к сжатому представлению. Эти представления позволяют роботу распознавать действия и интерпретировать их в новых средах.
## Результаты
В экспериментах LAWM был протестирован на библиотеке LIBERO и в реальном мировом условии. Модель показала существенное превосходство над моделями, обученными на ручном маркировании действий, и даже над соперничающими подходами, такими как villa-X. Особенно заметно преимущество LAWM в своей эффективности и применимости в реальном мире. Несмотря на то, что модели, такие как villa-X, показали высокую точность в управлении роботами, они требуют значительных ресурсов для работы. LAWM, в свою очередь, демонстрирует более высокую эффективность и гибкость,
Abstract
Vision-Language-Action (VLA) models have gained popularity for learning
robotic manipulation tasks that follow language instructions. State-of-the-art
VLAs, such as OpenVLA and $\pi_{0}$, were trained on large-scale, manually
labeled action datasets collected through teleoperation. More recent
approaches, including LAPA and villa-X, introduce latent action representations
that enable unsupervised pretraining on unlabeled datasets by modeling abstract
visual changes between frames. Although these methods have shown strong
results, their large model sizes make deployment in real-world settings
challenging. In this work, we propose LAWM, a model-agnostic framework to
pretrain imitation learning models in a self-supervised way, by learning latent
action representations from unlabeled video data through world modeling. These
videos can be sourced from robot recordings or videos of humans performing
actions with everyday objects. Our framework is designed to be effective for
transferring across tasks, environments, and embodiments. It outperforms models
trained with ground-truth robotics actions and similar pretraining methods on
the LIBERO benchmark and real-world setup, while being significantly more
efficient and practical for real-world settings.
Ссылки и действия
Дополнительные ресурсы: