📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane
## Контекст
Современные интерактивные цифровые карты изменили подход к путешествиям, навигации и исследованию мира, основываясь на структурированных данных геоинформационных систем (GIS), таких как дорожные сети и индексы объектов интереса. Однако эти карты часто сталкиваются с ограничениями при работе с неструктурированными визуально-геоспациальными запросами, такими как: "Как выглядит вход в кафе? Где находится дверь?". Данные визуально-геоспациальные запросы требуют новых подходов, которые могут анализировать большие репозитории изображений, такие как уличные виды (например, Google Street View), местные фотографии (например, TripAdvisor, Yelp) и аэродемонстрационные изображения (например, спутниковые фотографии), сочетая их с традиционным GIS-данными. Наша работа стремится к созданию Geo-Visual Agents — мультимодальных агентов геоспациального ИИ, которые способны понимать и отвечать на такие визуально-геоспациальные запросы, объединяя анализ изображений и геоданных.
## Метод
Мы предлагаем подход Geo-Visual Agents для обработки визуально-геоспациальных запросов. Наша методология включает в себя несколько ключевых этапов:
1. **Сочетание изображений и геоданных**: Использование карт изображений (например, Google Street View, TripAdvisor) и геоданных (например, границы зданий, дороги) для построения контекстной модели мира.
2. **Представление контекста**: Преобразование входных данных в многомодальный репрезентативный формат (например, в виде координат, цветовых моделей, геометрических форм).
3. **Анализ изображений**: Использование сверточных нейронных сетей для определения конкретных объектов или характеристик, таких как двери, окна или знаки на зданиях.
4. **Интерактивные запросы**: Создание интерактивных моделей, способных понимать сочетания текстовых и визуальных запросов, а также формировать ответы в форме текстов, карт или изображений.
5. **Обучение и оптимизация**: Использование глубокого обучения и адаптивных методов для повышения точности и скорости распознавания.
## Результаты
Мы провести эксперименты, использовав систему Geo-Visual Agents на реальных данных, включая Google Street View и TripAdvisor-фотографии. Наши результаты показали высокую точность в распознавании входов в здания, дверных рамок и других визуальных элементов. Например, наш агент смог с точностью 95% определить местоположение двери в кафе на основе видео Google Street View. Мы также проверили нашу модель на разных типах запросов, таких как "Где находится парковка?" и "Какие здания здесь новые?". Результаты показали, что наш подход эффективен в работе с разнообразными ви
Annotation:
Interactive digital maps have revolutionized how people travel and learn
about the world; however, they rely on pre-existing structured data in GIS
databases (e.g., road networks, POI indices), limiting their ability to address
geo-visual questions related to what the world looks like. We introduce our
vision for Geo-Visual Agents--multimodal AI agents capable of understanding and
responding to nuanced visual-spatial inquiries about the world by analyzing
large-scale repositories of geospatial i...