Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

2509.02055v1 cs.RO, cs.AI 2025-09-05
Авторы:

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

Резюме на русском

#################### ## Контекст #################### Vision-Language-Action (VLA) модели, обученные на больших и разнообразных данных, продемонстрировали великолепный потенциал для общего применения в робототехнической манипуляции. Однако основной бутылгейский нок вызывает адаптация этих моделей к даунстирим-задачам, особенно когда используемая робот-платформа или задача существенно отличаются от данных подготовки. Этот зоознак возбуждает значительное несоответствие распределений действий, требующее огромных дополнительных данных и вычислительных ресурсов для эффективной ютебинга. Чтобы устранить этот вопрос, мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, новую, данных-эффективную и легко внедримую фреймворк для адаптации. \texttt{ATE} сначала выравнивает различные пространства действий, построив единое латентное пространство, где вариационный автоэнкодер, ограниченный разрозненными ключевыми дивергенциями, шифрует действия адаптации в режимы предварительного обучения латентного распределения. Затем он управляет процессом диффузии или флоу-основывающего поколения VLA во время ютебинга, используя механизм гида, направляющий выходную модель к распределению целевого домена. Мы проводим обширные эксперименты на перекрестных применениях и задачах манипуляции в обоих симуляционной и реальной средах. В сравнении с прямой ютебингой представительных VLA, наш метод повышает среднюю мульти-задачную успешность на до \textbf{9.8\%} в симуляции и достигает поразительного \textbf{32\% повышения успешности} в реальном кросс-применении. Наша работа представляет целый и легкий в использовании подход, который существенно улучшает пригодность развертывания VLA-моделей на новые робот-платформы и задачи. #################### ## Метод #################### Мы предлагаем \textbf{Align-Then-stEer (\texttt{ATE})}, состоящую из двух этапов: выравнивания и направления. \textbf{Выравнивание} реализуется через построение единого латентного пространства, где \texttt{ATE} использует вариационный автоэнкодер, контролируемый разрозненными ключевыми дивергенциями, для преобразования действий адаптации в режимы латентного распределения предварительного обучения. Это позволяет нормализовать различные пространства действий и обеспечить гладкую модель поступления. \textbf{Направление} включает в себя гид-механизм, направляющий процесс генерации модели во время ютебинга. Этот механизм оптимизирует распределение модели в соответствии с целевым доменом, путем встраивания специальных терминов в loss-функцию. Мы реализуем наш метод с помощью диффузионных и флоу-основывающих VLA

Abstract

Vision-Language-Action (VLA) models pre-trained on large, diverse datasets show remarkable potential for general-purpose robotic manipulation. However, a primary bottleneck remains in adapting these models to downstream tasks, especially when the robot's embodiment or the task itself differs from the pre-training data. This discrepancy leads to a significant mismatch in action distributions, demanding extensive data and compute for effective fine-tuning. To address this challenge, we introduce \textbf{Align-Then-stEer (\texttt{ATE})}, a novel, data-efficient, and plug-and-play adaptation framework. \texttt{ATE} first aligns disparate action spaces by constructing a unified latent space, where a variational autoencoder constrained by reverse KL divergence embeds adaptation actions into modes of the pre-training action latent distribution. Subsequently, it steers the diffusion- or flow-based VLA's generation process during fine-tuning via a guidance mechanism that pushes the model's output distribution towards the target domain. We conduct extensive experiments on cross-embodiment and cross-task manipulation in both simulation and real world. Compared to direct fine-tuning of representative VLAs, our method improves the average multi-task success rate by up to \textbf{9.8\%} in simulation and achieves a striking \textbf{32\% success rate gain} in a real-world cross-embodiment setting. Our work presents a general and lightweight solution that greatly enhances the practicality of deploying VLA models to new robotic platforms and tasks.

Ссылки и действия