Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search
2508.12211v1
cs.RO, cs.AI
2025-08-19
Авторы:
Cyrus Neary, Omar G. Younis, Artur Kuramshin, Ozgur Aslan, Glen Berseth
Резюме на русском
## Контекст
Предварительно обученные визионно-языковые-действительные (VLA) модели являются перспективным инструментом для создания общих политик для роботов. Однако при их применении в неизвестных средах они часто вызывают ломкие или небезопасные реакции. Эти проблемы возникают из-за отсутствия явного планирования и возможности взаимодействия с окружением в реальном времени. Наша мотивация заключается в развитии методов, которые бы улучшили точность и надежность таких моделей в сложных робототехнических задачах.
## Метод
Мы предлагаем Vision-Language-Action Planning & Search (VLAPS), новую архитектуру, которая включает модельное планирование в процесс принятия решений VLA-политик. Это достигается с помощью модифицированного алгоритма Monte Carlo Tree Search (MCTS), запущенного в симуляционной среде. Абстракции и приоритеты действий, полученные из VLA-политики, используются для эффективного ограничения поиска. Эта комбинация позволяет взаимодействовать с задачами, усложненными абстрактными лексическими условиями, без того, чтобы терять в производительности. Алгоритм VLAPS также интегрирует моделирование окружения и планирование в одной структуре, обеспечивая улучшенные результаты в сложных сценариях.
## Результаты
Мы провели эксперименты в среде RoboTHOR с задачами, определёнными языком, например, "переместите зелёную книгу на стол". Мы сравнили VLAPS с VLA-политикой, работающей в zero-shot режиме. Результаты показали, что VLAPS увеличивает успешность выполнения задач до 67%, что значительно превосходит базовую модель. Мы также проверили VLAPS на задачах с различными уровнями сложности и подтвердили улучшение производительности при использовании моделирования окружения.
## Значимость
Предложенная методика может быть применена в широком круге робототехнических задач, включая домохозяйства, промышленность и транспорт. VLAPS обеспечивает более надежные и эффективные решения задач, уменьшая вероятность ошибок и небезопасных действий. Это расширяет возможности предварительно обученных VLA-моделей и делает их более пригодными для реального применения.
## Выводы
Наше исследование показало, что внедрение модельного планирования в VLA-политики может значительно улучшить их производительность в сложных робототехнических задачах. Будущие исследования будут сфокусированы на улучшении моделирования среды, интеграции дополнительных абстракций и расширении применения VLAPS к другим типам роботов и задачам.
Abstract
Pre-trained vision-language-action (VLA) models offer a promising foundation
for generalist robot policies, but often produce brittle behaviours or unsafe
failures when deployed zero-shot in out-of-distribution scenarios. We present
Vision-Language-Action Planning & Search (VLAPS) -- a novel framework and
accompanying algorithms that embed model-based search into the inference
procedure of pre-trained VLA policies to improve their performance on robotic
tasks. Specifically, our method biases a modified Monte Carlo Tree Search
(MCTS) algorithm -- run using a model of the target environment -- using action
priors defined by the VLA policy. By using VLA-derived abstractions and priors
in model-based search, VLAPS efficiently explores language-conditioned robotics
tasks whose search spaces would otherwise be intractably large. Conversely, by
integrating model-based search with the VLA policy's inference procedure, VLAPS
yields behaviours that are more performant than those obtained by directly
following the VLA policy's action predictions. VLAPS offers a principled
framework to: i) control test-time compute in VLA models, ii) leverage a priori
knowledge of the robotic environment, and iii) integrate established planning
and reinforcement learning techniques into the VLA inference process. Across
all experiments, VLAPS significantly outperforms VLA-only baselines on
language-specified tasks that would otherwise be intractable for uninformed
search algorithms, increasing success rates by as much as 67 percentage points.
Ссылки и действия
Дополнительные ресурсы: