SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation

2509.08757v1 cs.RO, cs.CV 2025-09-11
Авторы:

Michael J. Munje, Chen Tang, Shuijing Liu, Zichao Hu, Yifeng Zhu, Jiaxun Cui, Garrett Warnell, Joydeep Biswas, Peter Stone

Резюме на русском

## Контекст Robot navigation в динамичных, центрирующихся на человеческой активности средах требует социально комплайентных решений, основанных на надежном понимании сцены. Видение-языковые модели (VLMs) продемонстрировали большой потенциал в области обнаружения объектов, коммуникативного мышления и контекстуального понимания. Однако неясно, смогут ли эти модели корректно понимать сложные социальные сцены, включая взаимодействия между агентами и интерпретацию человеческих намерений, что необходимо для безопасного и социально корректного навигационного поведения. Несмотря на то, что недавние исследования исследовали применение VLMs в социальной навигации, на данный момент не существует систематического подхода к оценке их удовлетворения этих критериев. Мы предлагаем SocialNav-SUB, бенчмарк VQA, который оценивает VLMs для понимания сцен в сценариях социальной навигации. ## Метод SocialNav-SUB — это VQA-датасет, созданный для оценки VLMs в задачах понимания сцен в робототехнической навигации. Он содержит задачи, включающие спатиальное, спатиотременное и социальное разумение. Мы использовали современные VLMs для экспериментов и сравнили их с правилами и базовыми социальными моделями. Этапы исследования включили сбор данных, разработку бенчмарка и разработку новых подходов для оценки VLMs. ## Результаты Мы провели эксперименты с лучшими VLMs, установив их эффективность в понимании сцен, сравнив с результатами базовых моделей. Лучшая VLM показала высокую точность во многих задачах, но значительно отстала от простых правилальных подходов и социальных моделей в задачах, требующих глубокого социального понимания. Это указывает на существующие проблемы в их возможностях по социальной сцене в навигации. ## Значимость Важность SocialNav-SUB заключается в том, что он предоставляет фреймворк для оценки VLMs в реальных социальных сценариях. Он открывает путь для новых исследований по созданию базовых моделей для социальной навигации, помогая определить направления улучшения этих моделей. Эта работа может иметь значимые последствия для развития безопасной и эффективной робототехники в социальных средах. ## Выводы Мы заключаем, что хотя VLMs демонстрируют замечательные возможности в социальной навигации, они еще не достигли нужного уровня для полного удовлетворения требований. SocialNav-SUB устанавливает новый направленный подход к исследованию и усовершенствованию VLMs для социальной навигации, чтобы они могли безопасно и эффективно взаимодействовать в социальных средах. Будущие исследования будут сосредоточены на улучшении способности VLMs к социальному пониманию и их применении в реальных практических с

Abstract

Robot navigation in dynamic, human-centered environments requires socially-compliant decisions grounded in robust scene understanding. Recent Vision-Language Models (VLMs) exhibit promising capabilities such as object recognition, common-sense reasoning, and contextual understanding-capabilities that align with the nuanced requirements of social robot navigation. However, it remains unclear whether VLMs can accurately understand complex social navigation scenes (e.g., inferring the spatial-temporal relations among agents and human intentions), which is essential for safe and socially compliant robot navigation. While some recent works have explored the use of VLMs in social robot navigation, no existing work systematically evaluates their ability to meet these necessary conditions. In this paper, we introduce the Social Navigation Scene Understanding Benchmark (SocialNav-SUB), a Visual Question Answering (VQA) dataset and benchmark designed to evaluate VLMs for scene understanding in real-world social robot navigation scenarios. SocialNav-SUB provides a unified framework for evaluating VLMs against human and rule-based baselines across VQA tasks requiring spatial, spatiotemporal, and social reasoning in social robot navigation. Through experiments with state-of-the-art VLMs, we find that while the best-performing VLM achieves an encouraging probability of agreeing with human answers, it still underperforms simpler rule-based approach and human consensus baselines, indicating critical gaps in social scene understanding of current VLMs. Our benchmark sets the stage for further research on foundation models for social robot navigation, offering a framework to explore how VLMs can be tailored to meet real-world social robot navigation needs. An overview of this paper along with the code and data can be found at https://larg.github.io/socialnav-sub .

Ссылки и действия