#### Контекст
Реальность-роботсы в области робототехники и искусственного интеллекта широко применяются в сложных, динамичных окружениях. Однако, успешное обучение в реальной среде часто сталкивается с проблемами, такими как недостаточность структурированных наград и неэффективность исследований. Это приводит к затруднениям в обучении моделей, которые успешно решают задачи в реальном мире. Для решения этой проблемы необходимо развитие моделей, которые могут эффективно интегрировать визуальную информацию, естественный язык и действия для построения грамотных и удобных в использовании систем.
#### Метод
Мы предлагаем VLAC (Vision-Language-Action-Critic), модель, которая становится критиком и политикой одновременно, используя объединенные токены реакции и действий. Модель обучена на больших данных, включающих визуальные и естественные языки, а также данные траекторий роботов и людей. Она выдает прогрессные сигналы и сигналы завершения задач, устраняя необходимость в ручной настройке наград. VLAC включает в себя механизмы для рефинера настройки, отсева неподходящих промптов и обнаружения ошибок и остановок. Она может генерировать прогресс и сигналы завершения задач в реальном времени, чтобы оптимизировать скорость и точность выполнения задач.
#### Результаты
Мы проводили эксперименты с VLAC в четырех различных задачах реального мира, связанных с манипуляцией. В ходе этих экспериментов, без использования людей в цикле обучения, VLAC повысила успешность до 90% в 200 эпизодах. Добавление людей в цикл, в том числе виде различных протоколов, таких как репликация демонстраций, интерактивное исследование и руководство человеком, позволило повысить эффективность обучения и достичь 100% успеха в задачах. Эти результаты показывают, что VLAC может эффективно работать в реальных условиях, обеспечивая быструю и точную интеграцию.
#### Значимость
Модель VLAC может применяться в различных областях, включая домохозяйства, промышленность и роботов-компаньонов. Она обеспечивает точное взаимодействие с окружением, эффективное использование ресурсов и удобные интерфейсы для пользователей. Это модель может быть использована для ускорения и безопасности задач, касающихся манипуляции, а также для развития роботов с повышенной интерпретируемостью.
#### Выводы
Мы представили VLAC, модель, которая значительно улучшила эффективность обучения в реальной среде. Мы также показали, что использование людей в цикле может существенно повысить эффективность обучения и достичь полной успешности в задачах. Наше исследование