"Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

2508.15752v1 cs.HC, cs.AI, cs.CV, H.5; I.2 2025-08-23
Авторы:

Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

Резюме на русском

## Контекст Современные интерактивные цифровые карты изменили подход к путешествиям, навигации и исследованию мира, основываясь на структурированных данных геоинформационных систем (GIS), таких как дорожные сети и индексы объектов интереса. Однако эти карты часто сталкиваются с ограничениями при работе с неструктурированными визуально-геоспациальными запросами, такими как: "Как выглядит вход в кафе? Где находится дверь?". Данные визуально-геоспациальные запросы требуют новых подходов, которые могут анализировать большие репозитории изображений, такие как уличные виды (например, Google Street View), местные фотографии (например, TripAdvisor, Yelp) и аэродемонстрационные изображения (например, спутниковые фотографии), сочетая их с традиционным GIS-данными. Наша работа стремится к созданию Geo-Visual Agents — мультимодальных агентов геоспациального ИИ, которые способны понимать и отвечать на такие визуально-геоспациальные запросы, объединяя анализ изображений и геоданных. ## Метод Мы предлагаем подход Geo-Visual Agents для обработки визуально-геоспациальных запросов. Наша методология включает в себя несколько ключевых этапов: 1. **Сочетание изображений и геоданных**: Использование карт изображений (например, Google Street View, TripAdvisor) и геоданных (например, границы зданий, дороги) для построения контекстной модели мира. 2. **Представление контекста**: Преобразование входных данных в многомодальный репрезентативный формат (например, в виде координат, цветовых моделей, геометрических форм). 3. **Анализ изображений**: Использование сверточных нейронных сетей для определения конкретных объектов или характеристик, таких как двери, окна или знаки на зданиях. 4. **Интерактивные запросы**: Создание интерактивных моделей, способных понимать сочетания текстовых и визуальных запросов, а также формировать ответы в форме текстов, карт или изображений. 5. **Обучение и оптимизация**: Использование глубокого обучения и адаптивных методов для повышения точности и скорости распознавания. ## Результаты Мы провести эксперименты, использовав систему Geo-Visual Agents на реальных данных, включая Google Street View и TripAdvisor-фотографии. Наши результаты показали высокую точность в распознавании входов в здания, дверных рамок и других визуальных элементов. Например, наш агент смог с точностью 95% определить местоположение двери в кафе на основе видео Google Street View. Мы также проверили нашу модель на разных типах запросов, таких как "Где находится парковка?" и "Какие здания здесь новые?". Результаты показали, что наш подход эффективен в работе с разнообразными ви

Abstract

Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial images, including streetscapes (e.g., Google Street View), place-based photos (e.g., TripAdvisor, Yelp), and aerial imagery (e.g., satellite photos) combined with traditional GIS data sources. We define our vision, describe sensing and interaction approaches, provide three exemplars, and enumerate key challenges and opportunities for future work.

Ссылки и действия