Learning to See and Act: Task-Aware View Planning for Robotic Manipulation

2508.05186v1 cs.RO, cs.CV 2025-08-09
Авторы:

Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin

Резюме на русском

Научная статья «Learning to See and Act: Task-Aware View Planning for Robotic Manipulation» рассматривает проблему ограниченности современных vision-language-action (VLA) моделей для многозадачных задач роботской манипуляции, связанную с работой с единым статическим визуальным представлением. Такие модели страдают от недостатка трехмерного пересчета и влияния одной задачи на другую, что приводит к снижению robustness и generalization. В ответ на эту проблему авторы предлагают Task-Aware View Planning (TAVP) — новую фреймворк, который объединяет active view planning с task-specific representation learning. TAVP использует эффективный алгоритм эксплорации, основанный на новом методе pseudo-environment, для активной активации наиболее информативных view. Также предложен Mixture-of-Experts (MoE) visual encoder, который разделяет признаки на различные задачи, улучшая как файлность представлений, так и их generalization. Результаты экспериментов на RLBench показывают, что TAVP превосходит текущие state-of-the-art fixed-view модели в action prediction.

Abstract

Recent vision-language-action (VLA) models for multi-task robotic manipulation commonly rely on static viewpoints and shared visual encoders, which limit 3D perception and cause task interference, hindering robustness and generalization. In this work, we propose Task-Aware View Planning (TAVP), a framework designed to overcome these challenges by integrating active view planning with task-specific representation learning. TAVP employs an efficient exploration policy, accelerated by a novel pseudo-environment, to actively acquire informative views. Furthermore, we introduce a Mixture-of-Experts (MoE) visual encoder to disentangle features across different tasks, boosting both representation fidelity and task generalization. By learning to see the world in a task-aware way, TAVP generates more complete and discriminative visual representations, demonstrating significantly enhanced action prediction across a wide array of manipulation challenges. Extensive experiments on RLBench tasks show that our proposed TAVP model achieves superior performance over state-of-the-art fixed-view approaches. Visual results and code are provided at: https://hcplab-sysu.github.io/TAVP.

Ссылки и действия