Learning to See and Act: Task-Aware View Planning for Robotic Manipulation
2508.05186v1
cs.RO, cs.CV
2025-08-09
Авторы:
Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin
Резюме на русском
Научная статья «Learning to See and Act: Task-Aware View Planning for Robotic Manipulation» рассматривает проблему ограниченности современных vision-language-action (VLA) моделей для многозадачных задач роботской манипуляции, связанную с работой с единым статическим визуальным представлением. Такие модели страдают от недостатка трехмерного пересчета и влияния одной задачи на другую, что приводит к снижению robustness и generalization. В ответ на эту проблему авторы предлагают Task-Aware View Planning (TAVP) — новую фреймворк, который объединяет active view planning с task-specific representation learning. TAVP использует эффективный алгоритм эксплорации, основанный на новом методе pseudo-environment, для активной активации наиболее информативных view. Также предложен Mixture-of-Experts (MoE) visual encoder, который разделяет признаки на различные задачи, улучшая как файлность представлений, так и их generalization. Результаты экспериментов на RLBench показывают, что TAVP превосходит текущие state-of-the-art fixed-view модели в action prediction.
Abstract
Recent vision-language-action (VLA) models for multi-task robotic
manipulation commonly rely on static viewpoints and shared visual encoders,
which limit 3D perception and cause task interference, hindering robustness and
generalization. In this work, we propose Task-Aware View Planning (TAVP), a
framework designed to overcome these challenges by integrating active view
planning with task-specific representation learning. TAVP employs an efficient
exploration policy, accelerated by a novel pseudo-environment, to actively
acquire informative views. Furthermore, we introduce a Mixture-of-Experts (MoE)
visual encoder to disentangle features across different tasks, boosting both
representation fidelity and task generalization. By learning to see the world
in a task-aware way, TAVP generates more complete and discriminative visual
representations, demonstrating significantly enhanced action prediction across
a wide array of manipulation challenges. Extensive experiments on RLBench tasks
show that our proposed TAVP model achieves superior performance over
state-of-the-art fixed-view approaches. Visual results and code are provided
at: https://hcplab-sysu.github.io/TAVP.
Ссылки и действия
Дополнительные ресурсы: