Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning

2509.23107v1 cs.RO, cs.AI 2025-10-01

Авторы:

Yi Wang, Zeyu Xue, Mujie Liu, Tongqin Zhang, Yan Hu, Zhou Zhao, Chenguang Yang, Zhenyu Lu

Резюме на русском

Этот текст содержит все необходимые элементы для создания подробного резюме научной статьи в требуемом формате. Ниже приведена структурированная версия с разметкой заголовков: ## Контекст Область исследования связана с развитием систем робототехники для удаленного управления в условиях высокой рисковости или мобильности. Одной из основных проблем является задержка в обмене данными между удаленной средой и оператором, что приводит к ошибкам в выполнении команд и понижению безопасности. Данная работа ориентирована на создание методологии для улучшения системы планирования и управления в условиях задержек коммуникации. ## Метод Разработана методология Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG) для представления трехмерных объектов с открытым лексиконом в пространственно-временной области. Используются Large Vision-Language Models (LVLMs) для создания объектных представлений, а Hungarian assignment с помощью пользовательской temporal matching cost используется для расширения представлений во временной области. Включена тегированная задержка для возможности отсутствующих состояний в удаленной среде. Для сокращения замедления вводной информации разработана стратегия task-oriented subgraph filtering. ## Результаты Эксперименты проводились на Replica benchmark с добавлением задержки в систему. Использовались данные с 3D-объектами и LVLM-планировщиком. Отмечено, что ST-OVSG достигает 74 процентов точности в узлах на Replica benchmark, превосходя ConceptGraph. Также проводилась оценка системы в условиях задержки в 3,5 секунд, где LVLM планировщик показал успешность 70,5 процента. ## Значимость Разработанная система может быть применена в удаленных робототехнических системах для уменьшения нагрузки на оператора и повышения безопасности в условиях задержки в обмене данными. Основное преимущество заключается в улучшении прочности планирования и уменьшении неточностей в командах благодаря инновационному представлению сцены в пространственно-временной области. ## Выводы Работа достигла значительных улучшений в сфере удаленного управления роботами в условиях задержек. Будущие исследования будут сфокусированы на улучшении точности LVLM-представлений и оптимизации стратегии subgraph filtering для более сложных сцен.

Abstract

Teleoperation via natural-language reduces operator workload and enhances safety in high-risk or remote settings. However, in dynamic remote scenes, transmission latency during bidirectional communication creates gaps between remote perceived states and operator intent, leading to command misunderstanding and incorrect execution. To mitigate this, we introduce the Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG), a representation that enriches open-vocabulary perception with temporal dynamics and lightweight latency annotations. ST-OVSG leverages LVLMs to construct open-vocabulary 3D object representations, and extends them into the temporal domain via Hungarian assignment with our temporal matching cost, yielding a unified spatio-temporal scene graph. A latency tag is embedded to enable LVLM planners to retrospectively query past scene states, thereby resolving local-remote state mismatches caused by transmission delays. To further reduce redundancy and highlight task-relevant cues, we propose a task-oriented subgraph filtering strategy that produces compact inputs for the planner. ST-OVSG generalizes to novel categories and enhances planning robustness against transmission latency without requiring fine-tuning. Experiments show that our method achieves 74 percent node accuracy on the Replica benchmark, outperforming ConceptGraph. Notably, in the latency-robustness experiment, the LVLM planner assisted by ST-OVSG achieved a planning success rate of 70.5 percent.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Open-Ended Goal Inference through Actions and Language for Human-Robot Collabora...

Using Machine Learning to Take Stay-or-Go Decisions in Data-driven Drone Mission...

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observat...

A Learning-based Control Methodology for Transitioning VTOL UAVs

Навигация