DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning

2509.17684v1 cs.CV, cs.RO 2025-09-24

Авторы:

ThankGod Egbe, Peng Wang, Zhihao Guo, Zidong Chen

Резюме на русском

## Контекст В последние годы визуальные системы, основанные на нейронных сетях, набирают все большую популярность в области робототехники, особенно в зоне визуально-моторных политик. Одной из ключевых проблем является эффективность обучения таких моделей, когда доступ к традиционным супервизированным данным ограничен. Другой важный аспект — улучшение общей гибкости моделей в условиях неизвестных или нерегулярных сред. Работа статьи DINOv3-Diffusion Policy адресует эти проблемы, исследуя возможности pure-self-supervised одного из последних больших моделей — DINOv3 — в зоне visuomotor diffusion policy learning. ## Метод Методология работы основывается на использовании DINOv3 в качестве самостоятельного самосупервизируемого визуального моделирования. Авторы оценивают три аспекта эффективности: обучение с нуля, замороженный вес (frozen) и оптимизация тренировочного процесса (finetuning). Тесты проводятся на четырёх бенчмарк-задачах: "Push-T", "Lift", "Can" и "Square", которые закладываются в основу FiLM-conditioned diffusion policy. Для сравнения используется ResNet-18, традиционный модельный бизнес для таких задач. В результате проводится анализ различных аспектов — точности, устойчивости, обучаемости. ## Результаты В результате экспериментов, реализованных в рамках работы, было показано, что DINOv3-Diffusion Policy демонстрирует высокую эффективность. Специально, "finetuned DINOv3" показал себя на уровне или выше ResNet-18 в задачах, которые требуют высокой точности, например, в задаче "Can". Также, заметное улучшение в обучаемости отмечено для self-supervised DINOv3 в задачах, где наличие многочисленных тренировочных данных ограничено. Это указывает на более высокий уровень гибкости и устойчивости, особенно если сравнивать с ResNet-18 с ImageNet-pretrained. ## Значимость Результаты работы имеют значительный потенциал в различных областях робототехники, включая визуально-моторные политики, роботов для полезных дел, и в области общей гибкости моделей с предварительным тренировком. Использование DINOv3-Diffusion Policy позволяет упростить процесс подготовки моделей в зоне визуального моделирования, уменьшить необходимость в масштабных супервизированных данных, и, таким образом, сделать робототехнические системы более доступными и эффективными. ## Выводы В итоге, работа DINOv3-Diffusion Policy демонстрирует значительные преимущества самостоятельно самосупервизируемых моделей в зоне визуально-моторного моделирования. Она позволяет улучшить обучаемость и устойчивость моделей, снизить необходимость в традиционных супервизированных данных, и улучшить общую гибкость. Будущие исследования могут сфокусироваться на расширении дан

Abstract

This paper evaluates DINOv3, a recent large-scale self-supervised vision backbone, for visuomotor diffusion policy learning in robotic manipulation. We investigate whether a purely self-supervised encoder can match or surpass conventional supervised ImageNet-pretrained backbones (e.g., ResNet-18) under three regimes: training from scratch, frozen, and finetuned. Across four benchmark tasks (Push-T, Lift, Can, Square) using a unified FiLM-conditioned diffusion policy, we find that (i) finetuned DINOv3 matches or exceeds ResNet-18 on several tasks, (ii) frozen DINOv3 remains competitive, indicating strong transferable priors, and (iii) self-supervised features improve sample efficiency and robustness. These results support self-supervised large visual models as effective, generalizable perceptual front-ends for action diffusion policies, motivating further exploration of scalable label-free pretraining in robotic manipulation. Compared to using ResNet18 as a backbone, our approach with DINOv3 achieves up to a 10% absolute increase in test-time success rates on challenging tasks such as Can, and on-the-par performance in tasks like Lift, PushT, and Square.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DINOv3-Diffusion Policy: Self-Supervised Large Visual Model for Visuomotor Diffusion Policy Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация