VGGT-DP: Generalizable Robot Control via Vision Foundation Models

2509.18778v1 cs.RO, cs.AI 2025-09-25
Авторы:

Shijia Ge, Yinxin Zhang, Shuzhao Xie, Weixiang Zhang, Mingcai Zhou, Zhi Wang

Резюме на русском

#### Контекст В последние годы было сделано много усилий для создания алгоритмов, позволяющих роботам учиться выполнять манипуляционные задачи с помощью визуальной имитации обучения. Тем не менее, готовые решения часто страдают от недостатка в области способности к общей логике и генерализуемости. Это происходит в основном из-за ограниченного внимания, уделяемого структуре и мощности визуальных сетей. Одновременно, в биологических системах визуальная и проприоцептивная информация объединяются для обеспечения устойчивого контроля движений. Наша мотивация заключалась в разработке подхода, который бы оптимально использовал эти два источника информации для повышения степени общей логики и генерализуемости. #### Метод Мы предлагаем VGGT-DP — рамформу visuomotor policy, которая использует 3D-перспективу, полученную с помощью предобученной модели деперспективации. В качестве визуального энкодера используется Visual Geometry Grounded Transformer (VGGT), который позволяет захватывать подробную информацию о сцене. Для улучшения способности к общей логике мы применяем проприоцептивное руководство визуальным обучением, что позволяет роботу адаптироваться к различным локальным условиям. Для эффективного инференса мы разработали механизм повторного использования токенов разреза на кадры, связывающий несколько визуальных токенов в единое значение. Для улучшения политики мы используем случайное усечение токенов, что позволяет отвлечься от локальных минимумов и повысить устойчивость. #### Результаты Мы проводили эксперименты на сложных задачах MetaWorld, где VGGT-DP показал значительное превосходство по сравнению с такими моделями, как DP и DP3. Мы протестировали модель на задачах, требующих высокой точности и лонг-хорнзона, где робот должен выполнять целенаправленные действия на протяжении длительного времени. Результаты показали, что VGGT-DP обеспечивает более высокую точность и стабильность в этих ситуациях. #### Значимость VGGT-DP может быть применим в различных сферах, включая автоматизацию производственных процессов, роботизированные транспортные системы и интеллектуальные дома. Наш подход позволяет роботам быть более уверенными в своих действиях, делая их более универсальными и гибкими. Это может привести к улучшению производительности и уменьшению необходимости в ручном вмешательстве. #### Выводы Мы доказали, что VGGT-DP значительно повышает генерализуемость и точность решения в задачах манипуляции. Наша работа открывает новые пути для исследований в области визуального обучения и генерализуемости роботов, а такж

Abstract

Visual imitation learning frameworks allow robots to learn manipulation skills from expert demonstrations. While existing approaches mainly focus on policy design, they often neglect the structure and capacity of visual encoders, limiting spatial understanding and generalization. Inspired by biological vision systems, which rely on both visual and proprioceptive cues for robust control, we propose VGGT-DP, a visuomotor policy framework that integrates geometric priors from a pretrained 3D perception model with proprioceptive feedback. We adopt the Visual Geometry Grounded Transformer (VGGT) as the visual encoder and introduce a proprioception-guided visual learning strategy to align perception with internal robot states, improving spatial grounding and closed-loop control. To reduce inference latency, we design a frame-wise token reuse mechanism that compacts multi-view tokens into an efficient spatial representation. We further apply random token pruning to enhance policy robustness and reduce overfitting. Experiments on challenging MetaWorld tasks show that VGGT-DP significantly outperforms strong baselines such as DP and DP3, particularly in precision-critical and long-horizon scenarios.

Ссылки и действия