Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance
2509.02055v1
cs.RO, cs.AI
2025-09-05
Авторы:
Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li
Резюме на русском
####################
## Контекст
####################
Vision-Language-Action (VLA) модели, обученные на больших и разнообразных данных, продемонстрировали великолепный потенциал для общего применения в робототехнической манипуляции. Однако основной бутылгейский нок вызывает адаптация этих моделей к даунстирим-задачам, особенно когда используемая робот-платформа или задача существенно отличаются от данных подготовки. Этот зоознак возбуждает значительное несоответствие распределений действий, требующее огромных дополнительных данных и вычислительных ресурсов для эффективной ютебинга. Чтобы устранить этот вопрос, мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, новую, данных-эффективную и легко внедримую фреймворк для адаптации. \texttt{ATE} сначала выравнивает различные пространства действий, построив единое латентное пространство, где вариационный автоэнкодер, ограниченный разрозненными ключевыми дивергенциями, шифрует действия адаптации в режимы предварительного обучения латентного распределения. Затем он управляет процессом диффузии или флоу-основывающего поколения VLA во время ютебинга, используя механизм гида, направляющий выходную модель к распределению целевого домена. Мы проводим обширные эксперименты на перекрестных применениях и задачах манипуляции в обоих симуляционной и реальной средах. В сравнении с прямой ютебингой представительных VLA, наш метод повышает среднюю мульти-задачную успешность на до \textbf{9.8\%} в симуляции и достигает поразительного \textbf{32\% повышения успешности} в реальном кросс-применении. Наша работа представляет целый и легкий в использовании подход, который существенно улучшает пригодность развертывания VLA-моделей на новые робот-платформы и задачи.
####################
## Метод
####################
Мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, состоящую из двух этапов: выравнивания и направления. \textbf{Выравнивание} реализуется через построение единого латентного пространства, где \texttt{ATE} использует вариационный автоэнкодер, контролируемый разрозненными ключевыми дивергенциями, для преобразования действий адаптации в режимы латентного распределения предварительного обучения. Это позволяет нормализовать различные пространства действий и обеспечить гладкую модель поступления. \textbf{Направление} включает в себя гид-механизм, направляющий процесс генерации модели во время ютебинга. Этот механизм оптимизирует распределение модели в соответствии с целевым доменом, путем встраивания специальных терминов в loss-функцию. Мы реализуем наш метод с помощью диффузионных и флоу-основывающих VLA
Abstract
Vision-Language-Action (VLA) models pre-trained on large, diverse datasets
show remarkable potential for general-purpose robotic manipulation. However, a
primary bottleneck remains in adapting these models to downstream tasks,
especially when the robot's embodiment or the task itself differs from the
pre-training data. This discrepancy leads to a significant mismatch in action
distributions, demanding extensive data and compute for effective fine-tuning.
To address this challenge, we introduce \textbf{Align-Then-stEer
(\texttt{ATE})}, a novel, data-efficient, and plug-and-play adaptation
framework. \texttt{ATE} first aligns disparate action spaces by constructing a
unified latent space, where a variational autoencoder constrained by reverse KL
divergence embeds adaptation actions into modes of the pre-training action
latent distribution. Subsequently, it steers the diffusion- or flow-based VLA's
generation process during fine-tuning via a guidance mechanism that pushes the
model's output distribution towards the target domain. We conduct extensive
experiments on cross-embodiment and cross-task manipulation in both simulation
and real world. Compared to direct fine-tuning of representative VLAs, our
method improves the average multi-task success rate by up to \textbf{9.8\%} in
simulation and achieves a striking \textbf{32\% success rate gain} in a
real-world cross-embodiment setting. Our work presents a general and
lightweight solution that greatly enhances the practicality of deploying VLA
models to new robotic platforms and tasks.
Ссылки и действия
Дополнительные ресурсы: