Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation
2509.18865v1
cs.RO, cs.LG
2025-09-25
Авторы:
Masato Kobayashi, Thanpimon Buamanee
Резюме на русском
## Контекст
Существующие подходы к контролю роботов через бинарь контроля и имитационное обучение часто ограничиваются одной задачей, требуя специально настроенных моделей для каждой. Это ограничение сдерживает универсальность и эффективность таких систем. Одновременно, развитие технологий видения и естественного языка предоставляет возможность использовать визуальные сигналы и естественно языковые команды для улучшения точности и гибкости контроля. Наша модель Bi-VLA, используя новый подход к контролю, расширяет бинарный контроль, объединяя визуальные и естественно-языковые сигналы для более универсального и продуктивного обучения.
## Метод
Bi-VLA использует методы бинарного контроля с визуальными и естественно-языковыми сигналами для обучения. Модель основывается на технике bilateral control, в которой jointovyj angle, velocity, torque, и визуальные данные объединяются с текстовыми изображениями в формате естественного языка. Для обработки и объединения этих сигналов, мы применяем SigLIP и FiLM-based fusion, которые позволяют модели учиться на нескольких задачах в пределах одной модели. Этот подход решает проблему task-specific models в существующих методах, повышая универсальность и эффективность модели.
## Результаты
Мы проверили Bi-VLA на двух типах задач: одна, требующая визуальных и естественно-языковых сигналов для точного выполнения, и другая, где визуальные сигналы были основными источниками данных. Наши эксперименты на реальных роботах показали, что Bi-VLA не только улучшила точность выполнения задач, но и повысила успешность задач в сравнении с конвенциональными методами контроля. Особенно выделилось увеличение разнообразия задач, которые модель может обрабатывать внутри одной системы.
## Значимость
Bi-VLA может применяться в различных областях, включая автоматизацию, медицину, и рабочие процессы в производстве, где требуется универсальный и точный контроль. Эта модель предоставляет не только улучшение точности, но и простоту в изучении или реализации новых задач. Наш подход обогащает данные, позволяя роботу быть более гибким и реагировать на разнообразные ситуации, что делает его более эффективным в реальном мире.
## Выводы
Мы ставили цель расширить технику контроля при помощи видения и естественного языка, и наши результаты показывают, что это может быть эффективным в различных ситуациях. В будущих исследованиях мы планируем расширить модель для более сложных задач, используя реальные данные и методы обучения. Это может вводить новые возможности в области контроля роботов, способствуя развитию универсальных и производительных систем управления
Abstract
We propose Bilateral Control-Based Imitation Learning via Vision-Language
Fusion for Action Generation (Bi-VLA), a novel framework that extends bilateral
control-based imitation learning to handle more than one task within a single
model. Conventional bilateral control methods exploit joint angle, velocity,
torque, and vision for precise manipulation but require task-specific models,
limiting their generality. Bi-VLA overcomes this limitation by utilizing robot
joint angle, velocity, and torque data from leader-follower bilateral control
with visual features and natural language instructions through SigLIP and
FiLM-based fusion. We validated Bi-VLA on two task types: one requiring
supplementary language cues and another distinguishable solely by vision.
Real-robot experiments showed that Bi-VLA successfully interprets
vision-language combinations and improves task success rates compared to
conventional bilateral control-based imitation learning. Our Bi-VLA addresses
the single-task limitation of prior bilateral approaches and provides empirical
evidence that combining vision and language significantly enhances versatility.
Experimental results validate the effectiveness of Bi-VLA in real-world tasks.
For additional material, please visit the website:
https://mertcookimg.github.io/bi-vla/
Ссылки и действия
Дополнительные ресурсы: