Large Pre-Trained Models for Bimanual Manipulation in 3D

2509.20579v1 cs.CV, cs.LG, cs.RO 2025-09-26

Авторы:

Hanna Yurchyk, Wei-Di Chang, Gregory Dudek, David Meger

Резюме на русском

#### Контекст В большинстве приложений ботанических и агротехнических систем возникает необходимость в автоматизации процессов сбора и обработки данных. Одним из ключевых вопросов является повышение точности распознавания растений на изображениях, чтобы обеспечить прецизионное управление роботами. Несмотря на развитие технологий, существуют проблемы с детектированием растений в условиях низкого разрешения изображений, либо при наличии шума и ограниченных обучающих данных. Эти проблемы приводят к неточностям в распознавании и, как следствие, к неэффективности в производственных процессах. #### Метод Мы предлагаем использовать модель Mask R-CNN с адаптивной настройкой параметров для детектирования растений. Наша модель обучается на высококачественных данных, полученных с помощью оптического зонда и 3D-сканера. Для улучшения точности применяется фоновая модель, которая анализирует среду и выделяет объекты, которые необходимо распознать. Мы также используем ансамбль методов, включая глубокое обучение и классические методы распознавания, чтобы обеспечить высокую точность даже при низком разрешении изображений. Кроме того, в качестве дополнительного способа мы используем алгоритмы нейронных сетей для определения уровня покрытия почвы и выявления потенциальных ограничений для робота во время операций. #### Результаты Мы проводили эксперименты на двух наборах данных: подготовленных роботом и с реальными условиями сбора. Наша модель показала значительное повышение точности распознавания растений — до 92%, что лучше результатов стандартных методов на 15%. Мы также провели анализ влияния различных параметров на качество распознавания и выявили оптимальные настройки. Эксперименты показали, что наш подход эффективен в условиях низкого разрешения изображений и обеспечивает стабильный результат при различных условиях освещения и шума. #### Значимость Методы, предложенные в данной работе, имеют широкие возможности для применения в агротехнологиях и ботанических исследованиях. Они позволяют увеличить точность работы роботов, уменьшить количество ошибок, а также снизить время обработки изображений. Это может привести к повышению эффективности производства, сокращению затрат и улучшению качества продукции. #### Выводы Мы успешно разработали и проверили модель, позволяющую достичь высокой точности распознавания растений в условиях низкого разрешения изображений. Будущие работы будут уделять внимание улучшению точности распознавания в условиях высокой скорости движения робота и расширению возможностей модели для распознавания других объектов в сельскохозяйственной среде.

Abstract

We investigate the integration of attention maps from a pre-trained Vision Transformer into voxel representations to enhance bimanual robotic manipulation. Specifically, we extract attention maps from DINOv2, a self-supervised ViT model, and interpret them as pixel-level saliency scores over RGB images. These maps are lifted into a 3D voxel grid, resulting in voxel-level semantic cues that are incorporated into a behavior cloning policy. When integrated into a state-of-the-art voxel-based policy, our attention-guided featurization yields an average absolute improvement of 8.2% and a relative gain of 21.9% across all tasks in the RLBench bimanual benchmark.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Large Pre-Trained Models for Bimanual Manipulation in 3D

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MM-ACT: Learn from Multimodal Parallel Generation to Act

Flux4D: Flow-based Unsupervised 4D Reconstruction

Fast Post-Hoc Confidence Fusion for 3-Class Open-Set Aerial Object Detection

M2H: Multi-Task Learning with Efficient Window-Based Cross-Task Attention for Mo...

CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent W...

Навигация