RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
2509.15212v1
cs.CV, cs.RO
2025-09-20
Авторы:
Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
Резюме на русском
#### Контекст
В последние годы наблюдается стремительный рост интереса к видению-языку-действию (VLA) моделям, которые способны учитывать визуальные сигналы, языковые команды и действия в синхронном режиме. Эта проблема становится все более актуальной в связи с развитием роботов-манипуляторов, которые должны работать в условиях реального мира. Однако существуют значимые проблемы: нехватка качественных данных для обучения, сложность моделей и неэффективность их адаптации к конкретным задачам. Данная работа нацелена на развитие модели, которая бы существенно повысила эффективность VLA-моделей, обучаясь на готовых данных из реальных сценариев манипуляций.
#### Метод
Методология RynnVLA-001 основывается на двух этапах гиперболического обучения. **Первый этап** — Ego-Centric Video Generative Pretraining — обучает Image-to-Video модель на многомиллионных данных 12 миллионов ego-centric видео, которая предсказывает будущие кадры на основе исходного кадра и языковых инструкций. **Второй этап** — Human-Centric Trajectory-Aware Modeling — расширяет этот подход, предсказывая не только визуальные кадры, но и специфичные для действий ключевые точки, что добавляет уровень детализации в прогнозировании действий. Для еще большей эффективности владения действиями вводится ActionVAE — вариационный автоэнкодер, сжимающий последовательности действий в компактные видео-закодированные векторы, уменьшая сложность VLA-выхода.
#### Результаты
Набор экспериментов проводился на основе широко известных различных датасетов, включающих обучение на данных исходных 12 миллионов видео сцен манипуляций. Показано, что RynnVLA-001 превосходит состояние техники в сравнении с другими VLA-моделями, значительно улучшая точность предсказания действий и эффективность обучения. Доказано, что два этапа предварительного обучения обеспечивают более сильное инициализированное понимание действий, что позволяет модели лучше адаптироваться к различным задачам манипуляций.
#### Значимость
Результаты модели RynnVLA-001 открывают новые возможности для практического применения VLA-технологий в робототехнике, автоматизации и жизненных сценариях. Модель эффективно работает в условиях ограниченного количества данных, из-за того, что ее предварительное обучение на 12 миллионах видео дает универсальные компетенции. Это повышает производительность в задачах, таких как точное контролирование роботов, управление ими благодаря языковым командам, а также интеллектуальное обнаружение и реагирование на ситуации.
#### Выводы
Результаты этого исследования подтверждают эффективность гибридно
Abstract
This paper presents RynnVLA-001, a vision-language-action(VLA) model built
upon large-scale video generative pretraining from human demonstrations. We
propose a novel two-stage pretraining methodology. The first stage, Ego-Centric
Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric
manipulation videos to predict future frames conditioned on an initial frame
and a language instruction. The second stage, Human-Centric Trajectory-Aware
Modeling, extends this by jointly predicting future keypoint trajectories,
thereby effectively bridging visual frame prediction with action prediction.
Furthermore, to enhance action representation, we propose ActionVAE, a
variational autoencoder that compresses sequences of actions into compact
latent embeddings, reducing the complexity of the VLA output space. When
finetuned on the same downstream robotics datasets, RynnVLA-001 achieves
superior performance over state-of-the-art baselines, demonstrating that the
proposed pretraining strategy provides a more effective initialization for VLA
models.
Ссылки и действия
Дополнительные ресурсы: