PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

2508.05976v1 cs.CV, cs.RO 2025-08-12
Авторы:

Zhihao Zhu, Yifan Zheng, Siyu Pan, Yaohui Jin, Yao Mu

Резюме на русском

## Контекст Одной из основных проблем в области робототехники является фрагментация между высокоуровневыми задачами (semantic tasks) и низкоуровневыми геометрическими примитивами. Актуальной задачей является создание модели, которая бы связывала эти два уровня и динамически формировала семантические привязки для понимания объектов в робототехнических системах. Несмотря на продвижение визуально-языковых моделей (Vision-Language Models, VLMs) в генерировании отклика-ориентированных визуальных представлений, они страдают от недостатка семантического управления в канонических пространствах и зависимости от ручных аннотаций. Эти ограничения снижают возможность эффективного понимания динамических семантико-поддерживающих связях. Мы предлагаем Primitive-Aware Semantic Grounding (PASG), фреймворк, который автоматизирует выделение геометрических примитивов и динамически связывает их с семантическими привязками. ## Метод PASG представляет собой замкнутую циклическую систему, включающую два основных модуля: автоматическое выделение примитивов и семантическое привязывание. Алгоритм использует геометрическую агрегацию для выделения геометрических примитивов, таких как ключевые точки (keypoints) и оси. Для семантического дублирования используется визуально-языковая модель (VLM), которая динамически связывает эти примитивы с их поддерживающими функциями и задачами. Мы также разработали бенчмарк для специальных тестов в области распознавания примитивов и семантического сопоставления. Для оптимизации процесса, мы использовали улучшенную версию модели Qwen2.5VL, названную Qwen2.5VL-PA, которая используется для уточненного семантического управления. ## Результаты Мы проводили эксперименты в различных робототехнических сценариях, включая обработку объектов с различными степенями сложности. Модель PASG показала высокую точность в выявлении геометрических примитивов и семантических привязок, даже при отсутствии ручных аннотаций. Наши результаты показывают, что PASG сопоставима с ручными аннотациями по точности и быстродействию. Мы также проверили то, как модель выполняет работу в различных условиях, включая те, которые требуют высокой реакции и точности. Эти результаты подтверждают эффективность PASG в реальных робототехнических задачах. ## Значимость PASG может применяться в различных робототехнических задачах, таких как автоматическая сборка, пикап-and-place операции и другие активности, требующие точного понимания геометрии и семантики объектов. Основным преимуществом является то, что PASG устанавливает современный парадигму семантического понимания, которая св

Abstract

The fragmentation between high-level task semantics and low-level geometric features remains a persistent challenge in robotic manipulation. While vision-language models (VLMs) have shown promise in generating affordance-aware visual representations, the lack of semantic grounding in canonical spaces and reliance on manual annotations severely limit their ability to capture dynamic semantic-affordance relationships. To address these, we propose Primitive-Aware Semantic Grounding (PASG), a closed-loop framework that introduces: (1) Automatic primitive extraction through geometric feature aggregation, enabling cross-category detection of keypoints and axes; (2) VLM-driven semantic anchoring that dynamically couples geometric primitives with functional affordances and task-relevant description; (3) A spatial-semantic reasoning benchmark and a fine-tuned VLM (Qwen2.5VL-PA). We demonstrate PASG's effectiveness in practical robotic manipulation tasks across diverse scenarios, achieving performance comparable to manual annotations. PASG achieves a finer-grained semantic-affordance understanding of objects, establishing a unified paradigm for bridging geometric primitives with task semantics in robotic manipulation.

Ссылки и действия