Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning
2509.23107v1
cs.RO, cs.AI
2025-10-01
Авторы:
Yi Wang, Zeyu Xue, Mujie Liu, Tongqin Zhang, Yan Hu, Zhou Zhao, Chenguang Yang, Zhenyu Lu
Резюме на русском
Этот текст содержит все необходимые элементы для создания подробного резюме научной статьи в требуемом формате. Ниже приведена структурированная версия с разметкой заголовков:
## Контекст
Область исследования связана с развитием систем робототехники для удаленного управления в условиях высокой рисковости или мобильности. Одной из основных проблем является задержка в обмене данными между удаленной средой и оператором, что приводит к ошибкам в выполнении команд и понижению безопасности. Данная работа ориентирована на создание методологии для улучшения системы планирования и управления в условиях задержек коммуникации.
## Метод
Разработана методология Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG) для представления трехмерных объектов с открытым лексиконом в пространственно-временной области. Используются Large Vision-Language Models (LVLMs) для создания объектных представлений, а Hungarian assignment с помощью пользовательской temporal matching cost используется для расширения представлений во временной области. Включена тегированная задержка для возможности отсутствующих состояний в удаленной среде. Для сокращения замедления вводной информации разработана стратегия task-oriented subgraph filtering.
## Результаты
Эксперименты проводились на Replica benchmark с добавлением задержки в систему. Использовались данные с 3D-объектами и LVLM-планировщиком. Отмечено, что ST-OVSG достигает 74 процентов точности в узлах на Replica benchmark, превосходя ConceptGraph. Также проводилась оценка системы в условиях задержки в 3,5 секунд, где LVLM планировщик показал успешность 70,5 процента.
## Значимость
Разработанная система может быть применена в удаленных робототехнических системах для уменьшения нагрузки на оператора и повышения безопасности в условиях задержки в обмене данными. Основное преимущество заключается в улучшении прочности планирования и уменьшении неточностей в командах благодаря инновационному представлению сцены в пространственно-временной области.
## Выводы
Работа достигла значительных улучшений в сфере удаленного управления роботами в условиях задержек. Будущие исследования будут сфокусированы на улучшении точности LVLM-представлений и оптимизации стратегии subgraph filtering для более сложных сцен.
Abstract
Teleoperation via natural-language reduces operator workload and enhances
safety in high-risk or remote settings. However, in dynamic remote scenes,
transmission latency during bidirectional communication creates gaps between
remote perceived states and operator intent, leading to command
misunderstanding and incorrect execution. To mitigate this, we introduce the
Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG), a representation that
enriches open-vocabulary perception with temporal dynamics and lightweight
latency annotations. ST-OVSG leverages LVLMs to construct open-vocabulary 3D
object representations, and extends them into the temporal domain via Hungarian
assignment with our temporal matching cost, yielding a unified spatio-temporal
scene graph. A latency tag is embedded to enable LVLM planners to
retrospectively query past scene states, thereby resolving local-remote state
mismatches caused by transmission delays. To further reduce redundancy and
highlight task-relevant cues, we propose a task-oriented subgraph filtering
strategy that produces compact inputs for the planner. ST-OVSG generalizes to
novel categories and enhances planning robustness against transmission latency
without requiring fine-tuning. Experiments show that our method achieves 74
percent node accuracy on the Replica benchmark, outperforming ConceptGraph.
Notably, in the latency-robustness experiment, the LVLM planner assisted by
ST-OVSG achieved a planning success rate of 70.5 percent.
Ссылки и действия
Дополнительные ресурсы: