📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

2025-08-23

Авторы:

Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

## Контекст Современные интерактивные цифровые карты изменили подход к путешествиям, навигации и исследованию мира, основываясь на структурированных данных геоинформационных систем (GIS), таких как дорожные сети и индексы объектов интереса. Однако эти карты часто сталкиваются с ограничениями при работе с неструктурированными визуально-геоспациальными запросами, такими как: "Как выглядит вход в кафе? Где находится дверь?". Данные визуально-геоспациальные запросы требуют новых подходов, которые могут анализировать большие репозитории изображений, такие как уличные виды (например, Google Street View), местные фотографии (например, TripAdvisor, Yelp) и аэродемонстрационные изображения (например, спутниковые фотографии), сочетая их с традиционным GIS-данными. Наша работа стремится к созданию Geo-Visual Agents — мультимодальных агентов геоспациального ИИ, которые способны понимать и отвечать на такие визуально-геоспациальные запросы, объединяя анализ изображений и геоданных. ## Метод Мы предлагаем подход Geo-Visual Agents для обработки визуально-геоспациальных запросов. Наша методология включает в себя несколько ключевых этапов: 1. **Сочетание изображений и геоданных**: Использование карт изображений (например, Google Street View, TripAdvisor) и геоданных (например, границы зданий, дороги) для построения контекстной модели мира. 2. **Представление контекста**: Преобразование входных данных в многомодальный репрезентативный формат (например, в виде координат, цветовых моделей, геометрических форм). 3. **Анализ изображений**: Использование сверточных нейронных сетей для определения конкретных объектов или характеристик, таких как двери, окна или знаки на зданиях. 4. **Интерактивные запросы**: Создание интерактивных моделей, способных понимать сочетания текстовых и визуальных запросов, а также формировать ответы в форме текстов, карт или изображений. 5. **Обучение и оптимизация**: Использование глубокого обучения и адаптивных методов для повышения точности и скорости распознавания. ## Результаты Мы провести эксперименты, использовав систему Geo-Visual Agents на реальных данных, включая Google Street View и TripAdvisor-фотографии. Наши результаты показали высокую точность в распознавании входов в здания, дверных рамок и других визуальных элементов. Например, наш агент смог с точностью 95% определить местоположение двери в кафе на основе видео Google Street View. Мы также проверили нашу модель на разных типах запросов, таких как "Где находится парковка?" и "Какие здания здесь новые?". Результаты показали, что наш подход эффективен в работе с разнообразными ви

Annotation:

Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial i...

ID: 2508.15752v1 cs.HC, cs.AI, cs.CV, H.5; I.2

arXiv PDF