SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

2508.20547v1 cs.RO, cs.AI, cs.CV 2025-08-30
Авторы:

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

Резюме на русском

## Контекст Исследование выполнено в области машинного зрения и систем распознавания объектов в видео. Основной проблемой является синтез интерактивных захватов динамичных объектов в реальном времени. Традиционные методы страдают от высокой задержки и невозможности проводить целостную синтезированную работу. Развитие систем требует методологий, обеспечивающих низкую задержку, высокие точность и простоту взаимодействия. В этой статье предлагается SPGrasp — новая программная модель, которая способна обеспечивать эффективный захват динамичных объектов в реальном времени с низкой задержкой и гарантирующая высокую точность. ## Метод SPGrasp основывается на расширенной модели Segment Anything Model v2 (SAMv2). Она включает в себя специальный механизм интеграции пространственно-временного контекста и пространственных сигналов для более точной синтезированной работы. Метод использует специальные пользовательские запросы (prompts), что позволяет реализовать интерактивный грабежный процесс. Архитектура включает в себя нейронные сети, которые обрабатывают не только изображения, но и видеопотоки в реальном времени. Также в SPGrasp используется метод графической оптимизации, чтобы обеспечить стабильность и своевременность работы. ## Результаты В экспериментах были использованы данные из таких наборов, как OCID, Jacquard и GraspNet-1Billion. Метод SPGrasp показал высокую точность в захвате динамичных объектов. На OCID и Jacquard, SPGrasp достигло 90.6% и 93.8%, соответственно. На GraspNet-1Billion, где производилась продолжительная работа с видеопотоками, SPGrasp показал 92.0% точности при средней задержке 73.1 мс на кадр. Это представляет собой существенное сокращение задержки по сравнению с предыдущими методами. Также проводились реально-мирные эксперименты с 13 динамически развивающимися объектами, в результате которых была достигнута 94.8% успешности захвата. ## Значимость Модель SPGrasp применяется в различных областях, таких как робототехника, транспортные системы и автоматические системы управления. Она обеспечивает значительное сокращение задержки, повышает точность захвата и повышает интерактивность в работе с динамическими объектами. Это выносит SPGrasp в лидирующие позиции по сравнению с предшествующими моделями. Благодаря найденному балансу между скоростью и точностью, SPGrasp является ключевым технологическим решением для реализации интерактивных систем. ## Выводы SPGrasp достигла впечатляющих результатов в синтезе захвата динамичных объектов в реальном времени. Он уменьшил задержку до 59 мс, обеспечив высокую точно

Abstract

Real-time interactive grasp synthesis for dynamic objects remains challenging as existing methods fail to achieve low-latency inference while maintaining promptability. To bridge this gap, we propose SPGrasp (spatiotemporal prompt-driven dynamic grasp synthesis), a novel framework extending segment anything model v2 (SAMv2) for video stream grasp estimation. Our core innovation integrates user prompts with spatiotemporal context, enabling real-time interaction with end-to-end latency as low as 59 ms while ensuring temporal consistency for dynamic objects. In benchmark evaluations, SPGrasp achieves instance-level grasp accuracies of 90.6% on OCID and 93.8% on Jacquard. On the challenging GraspNet-1Billion dataset under continuous tracking, SPGrasp achieves 92.0% accuracy with 73.1 ms per-frame latency, representing a 58.5% reduction compared to the prior state-of-the-art promptable method RoG-SAM while maintaining competitive accuracy. Real-world experiments involving 13 moving objects demonstrate a 94.8% success rate in interactive grasping scenarios. These results confirm SPGrasp effectively resolves the latency-interactivity trade-off in dynamic grasp synthesis. Code is available at https://github.com/sejmoonwei/SPGrasp.

Ссылки и действия