📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

2025-09-13

Авторы:

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

## Контекст Vision-Language-Action (VLA) модели стали мощным инструментом для проблематики robotic manipulation. Они объединяют в себе способности понимания текста, обработки изображений и реального взаимодействия с окружающим перворостком. Несмотря на успехи, полученные благодаря большим объемам предобучения и настройке под конкретные задачи (SFT), эти модели сталкиваются с двумя основными проблемами: 1. Ограниченность и высокая стоимость больших датасетов траекторий управления, полученных с помощью ручного управления. 2. Ограниченность в общепринятом понятии generalization, что приводит к необходимости стремительного роста размера обучающих данных. Эти проблемы подчеркивают необходимость развития новых подходов к обучению VLA-моделей, которые смогут справляться с этими недостатками. ## Метод SimpleVLA-RL представляет собой развитие идей RL в области обучения VLA-моделей. Существующие техники RL, такие как veRL, были адаптированы с учетом конкретных особенностей VLA-моделей. Набор оптимизаций включает в себя: 1. **Выборка траекторий**: Методы, нацеленные на эффективное получение траекторий, которые затем используются для обучения. 2. **Параллельность**: Распараллеливание процесса выборки траекторий для увеличения эффективности. 3. **Улучшенные стратегии эксплуатации**: Инновационные подходы, позволяющие модели открывать новые траектории и варианты поведения. 4. **Оптимизация вычислений**: Реализация эффективных вычислений для работы с большими датасетами. Эти методы были реализованы в SimleVLA-RL, создав эффективный инструмент для обучения VLA-моделей с учетом их специфики. ## Результаты Проведены эксперименты с применением SimpleVLA-RL к двум известным датасетам: OpenVLA-OFT и RoboTwin. Эти эксперименты подтвердили, что SimpleVLA-RL: 1. Существенно улучшает результаты по сравнению с состоянием технологии (SoTA) на LIBERO. 2. Опережает модели $\pi_0$ на RoboTwin 1.0 и 2.0, благодаря новым стратегиям эксплуатации. При этом модель показала способность находить новые, до этого неизвестные траектории в процессе обучения, что демонстрирует способность к новым, нестандартным решениям. ## Значимость SimpleVLA-RL демонстрирует практическое применение RL в области VLA-моделей, решая ключевые проблемы: 1. Уменьшение зависимости от больших датасетов. 2. Улучшение способности моделей к generalization. 3. Увеличение эффективности реального применения VLA-моделей в сложных сценариях. Эти достижения открывают путь к развитию более надежных и производительных моделей для robotic manipulation. ## Выводы SimpleVLA-RL доказывает, что RL может эффективно решать проблемы обучения VLA-моделей, снижая

Annotation:

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that...

ID: 2509.09674v1 cs.RO, cs.AI, cs.CL, cs.LG

arXiv PDF