VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

2509.19002v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-09-25
Авторы:

Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

Резюме на русском

#### Контекст В последние годы внимание сообщества AI привлекают видеопонимание и извлечение информации из видео. Эти задачи становятся все более важными с учетом развития технологий для роботов, VR/AR, и AI-поддерживаемых приложений. Однако существующие бенчмарки ограничены видео из индорных сцен или коротких внедорожных путешествий. Длительные путешествия, сложные задачи планирования и перемещения по GPS-трекам остаются недооцененными. Многомерное понимание видео, включая геоспациальное и временное контексты, является ключевым для развития следующего поколения моделей МЛЛМ. #### Метод VIR-Bench представляет собой бенчмарк, состоящий из 200 долговременных видео, покрывающих различные географические регионы. Он оценивает модели по возможности воспроизводить путешествия, рассчитывая географические маршруты, временные последовательности и релевантные объекты. Метод основывается на создании синтетических контекстов, анализе потока видео и использовании технологий текстового понимания. Архитектура VIR-Bench включает в себя скелетный рендеринг, многомодальный контекст-анализ, а также методы оценки точности и полноты реконструкции. #### Результаты Эксперименты проводились на 200 видео, с использованием нескольких современных МЛЛМ. Оценивались показатели точности и полноты реконструкции путешествий. Большинство моделей показали низкие результаты, особенно при высокой сложности исходных видео. Модели способны распознавать простые географические маршруты, но предсказывать длительные траектории и повторять взаимодействие с объектами остаются затруднительными. #### Значимость Вир-Бенч широко может применяться в области AI для путешествий, обеспечивая базу для развития моделей, умеющих передвигаться по сложным географическим маршрутам. Его особенностью является возможность тестирования моделей на реальных траекториях и реконструкции пользовательских путешествий. Он не только улучшает понимание геоспациальных и временных задач, но также может использоваться для создания новых типов приложений в области эмбедид AI. #### Выводы VIR-Bench демонстрирует значительную сложность в задаче реконструкции траекторий в долговременных видео. Он позволяет тестировать модели на высокой сложности и создает новые возможности для развития AI в путешествиях. В дальнейшем, бенчмарк будет расширен для поддержки новых моделей и задач, таких как взаимодействие с пользователем и развитие AI-агентов для путешествий.

Abstract

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning and navigation. To bridge this gap, we present VIR-Bench, a novel benchmark consisting of 200 travel videos that frames itinerary reconstruction as a challenging task designed to evaluate and push forward MLLMs' geospatial-temporal intelligence. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, struggle to achieve high scores, underscoring the difficulty of handling videos that span extended spatial and temporal scales. Moreover, we conduct an in-depth case study in which we develop a prototype travel-planning agent that leverages the insights gained from VIR-Bench. The agent's markedly improved itinerary recommendations verify that our evaluation protocol not only benchmarks models effectively but also translates into concrete performance gains in user-facing applications.

Ссылки и действия