Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

2509.11417v2 cs.RO, cs.AI, cs.CV, cs.LG 2025-09-18
Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

Резюме на русском

## Контекст Vision-language-action (VLA) модели, порожденные из vision-language models (VLMs), предлагают возможность использования богатых предобученных представлений для создания генерализованных роботов, способных выполнять различные задачи в различных средах. Однако прямое оточечение таких моделей на данные из реального мира часто приводит к искажению предобученных представлений, что существенно ограничивает их общеупотребимость. Наличие этой проблемы вызывает нужды в разработке методов, позволяющих лучше сохранить предобученные представления в процессе оточечения на конкретные задачи. ## Метод Методология предложенного подхода основывается на трех ключевых компонентах. Во-первых, используется дизайн двухмасштабной энкодерной системы: один энкодер (для визуальных данных) остается неизменным, чтобы сохранить предобученные представления, а другой энкодер (для задач) тренируется для адаптации к конкретной задаче. Во-вторых, введена структура порождения действий на основе строк текста, которая преобразует непрерывные действия в последовательности символов, соответствующие предобученной модели. В-третьих, предлагается стратегия совместного обучения (co-training), которая объединяет данные от демонстраций робота и визуально-языковых данных, с фокусом на спатсальном рассуждении и навыках удобства действий. ## Результаты Эксперименты проводились как в симуляционной среде, так и на реальных роботах. Модель демонстрировала значительное улучшение в области устойчивости к визуальным нарушениям, общеупотребимости в новых инструкциях и средах, а также общей эффективности в выполнении задач. Эти результаты сравнивались с базовыми моделями, подтверждая значительную выгоду от применения предложенного подхода. ## Значимость Продемонстрированный подход может быть применен в различных областях, включая робототехнику, автоматизацию производственных процессов и визуальных систем управления. Он обеспечивает значительное увеличение общеупотребимости роботов в различных средах и задачах, предоставляя роботам возможность лучшего понимания инструкций и реагирования на новые условия. Это, в свою очередь, может привести к значительным преимуществам в производительности и удобстве использования в различных приложениях. ## Выводы Предложенная модель продемонстрировала улучшение в области общеупотребимости VLA-моделей, сохранив предобученные представления и при этом адаптируя модель к конкретным задачам. Будущие исследования будут сосредоточены на улучшении эффективности обучения, отказе от тренировочных данных, а также рассмотрении более сложных искусственных и настоящих с

Abstract

Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with one frozen vision encoder to retain pretrained features and another trainable for task adaptation, (ii) a string-based action tokenizer that casts continuous actions into character sequences aligned with the model's pretraining domain, and (iii) a co-training strategy that combines robot demonstrations with vision-language datasets emphasizing spatial reasoning and affordances. Evaluations in simulation and on real robots show that our method improves robustness to visual perturbations, generalization to novel instructions and environments, and overall task success compared to baselines.

Ссылки и действия