VGGT-DP: Generalizable Robot Control via Vision Foundation Models
2509.18778v1
cs.RO, cs.AI
2025-09-25
Авторы:
Shijia Ge, Yinxin Zhang, Shuzhao Xie, Weixiang Zhang, Mingcai Zhou, Zhi Wang
Резюме на русском
#### Контекст
В последние годы было сделано много усилий для создания алгоритмов, позволяющих роботам учиться выполнять манипуляционные задачи с помощью визуальной имитации обучения. Тем не менее, готовые решения часто страдают от недостатка в области способности к общей логике и генерализуемости. Это происходит в основном из-за ограниченного внимания, уделяемого структуре и мощности визуальных сетей. Одновременно, в биологических системах визуальная и проприоцептивная информация объединяются для обеспечения устойчивого контроля движений. Наша мотивация заключалась в разработке подхода, который бы оптимально использовал эти два источника информации для повышения степени общей логики и генерализуемости.
#### Метод
Мы предлагаем VGGT-DP — рамформу visuomotor policy, которая использует 3D-перспективу, полученную с помощью предобученной модели деперспективации. В качестве визуального энкодера используется Visual Geometry Grounded Transformer (VGGT), который позволяет захватывать подробную информацию о сцене. Для улучшения способности к общей логике мы применяем проприоцептивное руководство визуальным обучением, что позволяет роботу адаптироваться к различным локальным условиям. Для эффективного инференса мы разработали механизм повторного использования токенов разреза на кадры, связывающий несколько визуальных токенов в единое значение. Для улучшения политики мы используем случайное усечение токенов, что позволяет отвлечься от локальных минимумов и повысить устойчивость.
#### Результаты
Мы проводили эксперименты на сложных задачах MetaWorld, где VGGT-DP показал значительное превосходство по сравнению с такими моделями, как DP и DP3. Мы протестировали модель на задачах, требующих высокой точности и лонг-хорнзона, где робот должен выполнять целенаправленные действия на протяжении длительного времени. Результаты показали, что VGGT-DP обеспечивает более высокую точность и стабильность в этих ситуациях.
#### Значимость
VGGT-DP может быть применим в различных сферах, включая автоматизацию производственных процессов, роботизированные транспортные системы и интеллектуальные дома. Наш подход позволяет роботам быть более уверенными в своих действиях, делая их более универсальными и гибкими. Это может привести к улучшению производительности и уменьшению необходимости в ручном вмешательстве.
#### Выводы
Мы доказали, что VGGT-DP значительно повышает генерализуемость и точность решения в задачах манипуляции. Наша работа открывает новые пути для исследований в области визуального обучения и генерализуемости роботов, а такж
Abstract
Visual imitation learning frameworks allow robots to learn manipulation
skills from expert demonstrations. While existing approaches mainly focus on
policy design, they often neglect the structure and capacity of visual
encoders, limiting spatial understanding and generalization. Inspired by
biological vision systems, which rely on both visual and proprioceptive cues
for robust control, we propose VGGT-DP, a visuomotor policy framework that
integrates geometric priors from a pretrained 3D perception model with
proprioceptive feedback. We adopt the Visual Geometry Grounded Transformer
(VGGT) as the visual encoder and introduce a proprioception-guided visual
learning strategy to align perception with internal robot states, improving
spatial grounding and closed-loop control. To reduce inference latency, we
design a frame-wise token reuse mechanism that compacts multi-view tokens into
an efficient spatial representation. We further apply random token pruning to
enhance policy robustness and reduce overfitting. Experiments on challenging
MetaWorld tasks show that VGGT-DP significantly outperforms strong baselines
such as DP and DP3, particularly in precision-critical and long-horizon
scenarios.
Ссылки и действия
Дополнительные ресурсы: