Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation

2509.18865v1 cs.RO, cs.LG 2025-09-25

Авторы:

Masato Kobayashi, Thanpimon Buamanee

Резюме на русском

## Контекст Существующие подходы к контролю роботов через бинарь контроля и имитационное обучение часто ограничиваются одной задачей, требуя специально настроенных моделей для каждой. Это ограничение сдерживает универсальность и эффективность таких систем. Одновременно, развитие технологий видения и естественного языка предоставляет возможность использовать визуальные сигналы и естественно языковые команды для улучшения точности и гибкости контроля. Наша модель Bi-VLA, используя новый подход к контролю, расширяет бинарный контроль, объединяя визуальные и естественно-языковые сигналы для более универсального и продуктивного обучения. ## Метод Bi-VLA использует методы бинарного контроля с визуальными и естественно-языковыми сигналами для обучения. Модель основывается на технике bilateral control, в которой jointovyj angle, velocity, torque, и визуальные данные объединяются с текстовыми изображениями в формате естественного языка. Для обработки и объединения этих сигналов, мы применяем SigLIP и FiLM-based fusion, которые позволяют модели учиться на нескольких задачах в пределах одной модели. Этот подход решает проблему task-specific models в существующих методах, повышая универсальность и эффективность модели. ## Результаты Мы проверили Bi-VLA на двух типах задач: одна, требующая визуальных и естественно-языковых сигналов для точного выполнения, и другая, где визуальные сигналы были основными источниками данных. Наши эксперименты на реальных роботах показали, что Bi-VLA не только улучшила точность выполнения задач, но и повысила успешность задач в сравнении с конвенциональными методами контроля. Особенно выделилось увеличение разнообразия задач, которые модель может обрабатывать внутри одной системы. ## Значимость Bi-VLA может применяться в различных областях, включая автоматизацию, медицину, и рабочие процессы в производстве, где требуется универсальный и точный контроль. Эта модель предоставляет не только улучшение точности, но и простоту в изучении или реализации новых задач. Наш подход обогащает данные, позволяя роботу быть более гибким и реагировать на разнообразные ситуации, что делает его более эффективным в реальном мире. ## Выводы Мы ставили цель расширить технику контроля при помощи видения и естественного языка, и наши результаты показывают, что это может быть эффективным в различных ситуациях. В будущих исследованиях мы планируем расширить модель для более сложных задач, используя реальные данные и методы обучения. Это может вводить новые возможности в области контроля роботов, способствуя развитию универсальных и производительных систем управления

Abstract

We propose Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation (Bi-VLA), a novel framework that extends bilateral control-based imitation learning to handle more than one task within a single model. Conventional bilateral control methods exploit joint angle, velocity, torque, and vision for precise manipulation but require task-specific models, limiting their generality. Bi-VLA overcomes this limitation by utilizing robot joint angle, velocity, and torque data from leader-follower bilateral control with visual features and natural language instructions through SigLIP and FiLM-based fusion. We validated Bi-VLA on two task types: one requiring supplementary language cues and another distinguishable solely by vision. Real-robot experiments showed that Bi-VLA successfully interprets vision-language combinations and improves task success rates compared to conventional bilateral control-based imitation learning. Our Bi-VLA addresses the single-task limitation of prior bilateral approaches and provides empirical evidence that combining vision and language significantly enhances versatility. Experimental results validate the effectiveness of Bi-VLA in real-world tasks. For additional material, please visit the website: https://mertcookimg.github.io/bi-vla/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Cross-embodied Co-design for Dexterous Hands

OmniDexVLG: Learning Dexterous Grasp Generation from Vision Language Model-Guide...

Digital Twin-based Control Co-Design of Full Vehicle Active Suspensions via Deep...

Modality-Augmented Fine-Tuning of Foundation Robot Policies for Cross-Embodiment...

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Навигация