RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

2509.15212v1 cs.CV, cs.RO 2025-09-20
Авторы:

Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

Резюме на русском

#### Контекст В последние годы наблюдается стремительный рост интереса к видению-языку-действию (VLA) моделям, которые способны учитывать визуальные сигналы, языковые команды и действия в синхронном режиме. Эта проблема становится все более актуальной в связи с развитием роботов-манипуляторов, которые должны работать в условиях реального мира. Однако существуют значимые проблемы: нехватка качественных данных для обучения, сложность моделей и неэффективность их адаптации к конкретным задачам. Данная работа нацелена на развитие модели, которая бы существенно повысила эффективность VLA-моделей, обучаясь на готовых данных из реальных сценариев манипуляций. #### Метод Методология RynnVLA-001 основывается на двух этапах гиперболического обучения. **Первый этап** — Ego-Centric Video Generative Pretraining — обучает Image-to-Video модель на многомиллионных данных 12 миллионов ego-centric видео, которая предсказывает будущие кадры на основе исходного кадра и языковых инструкций. **Второй этап** — Human-Centric Trajectory-Aware Modeling — расширяет этот подход, предсказывая не только визуальные кадры, но и специфичные для действий ключевые точки, что добавляет уровень детализации в прогнозировании действий. Для еще большей эффективности владения действиями вводится ActionVAE — вариационный автоэнкодер, сжимающий последовательности действий в компактные видео-закодированные векторы, уменьшая сложность VLA-выхода. #### Результаты Набор экспериментов проводился на основе широко известных различных датасетов, включающих обучение на данных исходных 12 миллионов видео сцен манипуляций. Показано, что RynnVLA-001 превосходит состояние техники в сравнении с другими VLA-моделями, значительно улучшая точность предсказания действий и эффективность обучения. Доказано, что два этапа предварительного обучения обеспечивают более сильное инициализированное понимание действий, что позволяет модели лучше адаптироваться к различным задачам манипуляций. #### Значимость Результаты модели RynnVLA-001 открывают новые возможности для практического применения VLA-технологий в робототехнике, автоматизации и жизненных сценариях. Модель эффективно работает в условиях ограниченного количества данных, из-за того, что ее предварительное обучение на 12 миллионах видео дает универсальные компетенции. Это повышает производительность в задачах, таких как точное контролирование роботов, управление ими благодаря языковым командам, а также интеллектуальное обнаружение и реагирование на ситуации. #### Выводы Результаты этого исследования подтверждают эффективность гибридно

Abstract

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.

Ссылки и действия