PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
2508.05976v1
cs.CV, cs.RO
2025-08-12
Авторы:
Zhihao Zhu, Yifan Zheng, Siyu Pan, Yaohui Jin, Yao Mu
Резюме на русском
## Контекст
Одной из основных проблем в области робототехники является фрагментация между высокоуровневыми задачами (semantic tasks) и низкоуровневыми геометрическими примитивами. Актуальной задачей является создание модели, которая бы связывала эти два уровня и динамически формировала семантические привязки для понимания объектов в робототехнических системах. Несмотря на продвижение визуально-языковых моделей (Vision-Language Models, VLMs) в генерировании отклика-ориентированных визуальных представлений, они страдают от недостатка семантического управления в канонических пространствах и зависимости от ручных аннотаций. Эти ограничения снижают возможность эффективного понимания динамических семантико-поддерживающих связях. Мы предлагаем Primitive-Aware Semantic Grounding (PASG), фреймворк, который автоматизирует выделение геометрических примитивов и динамически связывает их с семантическими привязками.
## Метод
PASG представляет собой замкнутую циклическую систему, включающую два основных модуля: автоматическое выделение примитивов и семантическое привязывание. Алгоритм использует геометрическую агрегацию для выделения геометрических примитивов, таких как ключевые точки (keypoints) и оси. Для семантического дублирования используется визуально-языковая модель (VLM), которая динамически связывает эти примитивы с их поддерживающими функциями и задачами. Мы также разработали бенчмарк для специальных тестов в области распознавания примитивов и семантического сопоставления. Для оптимизации процесса, мы использовали улучшенную версию модели Qwen2.5VL, названную Qwen2.5VL-PA, которая используется для уточненного семантического управления.
## Результаты
Мы проводили эксперименты в различных робототехнических сценариях, включая обработку объектов с различными степенями сложности. Модель PASG показала высокую точность в выявлении геометрических примитивов и семантических привязок, даже при отсутствии ручных аннотаций. Наши результаты показывают, что PASG сопоставима с ручными аннотациями по точности и быстродействию. Мы также проверили то, как модель выполняет работу в различных условиях, включая те, которые требуют высокой реакции и точности. Эти результаты подтверждают эффективность PASG в реальных робототехнических задачах.
## Значимость
PASG может применяться в различных робототехнических задачах, таких как автоматическая сборка, пикап-and-place операции и другие активности, требующие точного понимания геометрии и семантики объектов. Основным преимуществом является то, что PASG устанавливает современный парадигму семантического понимания, которая св
Abstract
The fragmentation between high-level task semantics and low-level geometric
features remains a persistent challenge in robotic manipulation. While
vision-language models (VLMs) have shown promise in generating affordance-aware
visual representations, the lack of semantic grounding in canonical spaces and
reliance on manual annotations severely limit their ability to capture dynamic
semantic-affordance relationships. To address these, we propose Primitive-Aware
Semantic Grounding (PASG), a closed-loop framework that introduces: (1)
Automatic primitive extraction through geometric feature aggregation, enabling
cross-category detection of keypoints and axes; (2) VLM-driven semantic
anchoring that dynamically couples geometric primitives with functional
affordances and task-relevant description; (3) A spatial-semantic reasoning
benchmark and a fine-tuned VLM (Qwen2.5VL-PA). We demonstrate PASG's
effectiveness in practical robotic manipulation tasks across diverse scenarios,
achieving performance comparable to manual annotations. PASG achieves a
finer-grained semantic-affordance understanding of objects, establishing a
unified paradigm for bridging geometric primitives with task semantics in
robotic manipulation.
Ссылки и действия
Дополнительные ресурсы: