## Контекст
Vision-language-action (VLA) модели, полученные путем подгонки от vision-language моделей (VLMs), обладают перспективой использования богатых предварительно обученных представлений для создания общих роботов, способных выполнять разнообразные задачи в различных средах. Однако прямое тюнинге на данных роботов часто приводит к разрушению этих представлений и ограничению их общеприменимости. Задача, стоящая перед нами, заключается в разработке метода, который лучше сохранит предварительно обученные функции при одновременной адаптации моделей к задачам роботов. Мы предлагаем рамку, которая лучше сохраняет предварительно обученные функции, при этом их адаптируя к задачам роботов. Данная рамка может повысить общую устойчивость, улучшить общеприменимость и повысить уровень успеха в выполнении задач.
## Метод
Мы предлагаем двухэнкодерную архитектуру, где один из энкодеров заморожен для сохранения предварительно обученных представлений, а другой тренируется для адаптации к конкретным задачам. Для того чтобы сделать модели более работоспособными в сфере роботов, мы предлагаем вводить строковые вектора действий, которые преобразуют непрерывные действия в последовательности из символов, подстраиваясь под домен, в котором производилось предварительное обучение модели. Также мы предлагаем стратегию координированного обучения (co-training), которая объединяет данные с демонстраций роботов с данными визуально-языковых моделей, ориентируясь на спациальное рассуждение и аффорданты. Эта стратегия помогает восстановить предварительно обученные представления, при этом добавляя новые специфические для задач роботов функции.
## Результаты
Мы проводим эксперименты в симуляционной среде и на реальных роботах, сравнивая наши результаты с традиционными подходами. Наши эксперименты показали, что наш подход увеличивает устойчивость к визуальным возмущениям, улучшает общие способности моделей к новым командам и средам, а также повышает общую степень успеха в выполнении задач. Мы также измеряли производительность на различных тестовых данных, демонстрируя, что наша методология превосходит базовые модели в целом наборе метрик.
## Значимость
Наш подход может быть применен в различных областях, таких как автоматизация производственных процессов, помощь инвалидам, и управление домашними устройствами. Он предлагает несколько преимуществ, таких как улучшение общей устойчивости моделей, повышение общей гибкости и устойчивость к изменениям в задачах и окружении. Мы считаем, что наша работа может способствовать развитию универсальных моделей, способных выполнять различные задачи в разных с