ArchGPT: Understanding the World's Architectures with Large Multimodal Models
2509.20858v1
cs.GR, cs.CV, cs.MM
2025-09-27
Авторы:
Yuze Wang, Luo Yang, Junyi Wang, Yue Qi
Резюме на русском
## Контекст
Архитектура является не только функциональным элементом жизни людей, но и творческим и культурным явлением, отображающим ценности, историю и культурные особенности разных народов. Однако существующие виртуальные, повышенной или смешанной реальностях не всегда удается полностью отобразить все значимые аспекты архитектуры, такие как стиль, структура, исторические значения и эстетические характеристики. В этом контексте возникает потребность в развитии методов, позволяющих более глубоко и точно интерпретировать и визуализировать архитектурные объекты, чтобы улучшить понимание и доступность этого направления для различных аудиторий.
## Метод
Чтобы решить эту проблему, предлагается ArchGPT — модель визуального вопроса-ответа, объединяющая несколько моделей различных моделей. Её модель основывается на ShareGPT4V-7B, которая была усовершенствована для работы с архитектурными данными. Методология включает несколько ключевых этапов:
1. **Сбор данных**: Используется специальная подборка архивированных сцен из Wikimedia Commons. Для получения качественных изображений проводится фильтрация неконтролируемых туристических фотографий. Это делается с помощью трёхмерного реконструкции и семантической сегментации, чтобы выбрать кристально чистые изображения строений без оккультации.
2. **Очистка и анализ текстовых метаданных**: Для того, чтобы избежать шума и неоднозначности в метаданных, применяется текстовая модель с высоким уровнем технологического прогресса. Она улучшает качество вопросов и ответов, связанных с архитектурой.
3. **Синтез дополнительных данных**: Для повышения семантического разнообразия вводятся дополнительные вопросы-ответы, основанные на глубоких анализах архитектурных элементов.
## Результаты
Проведенные эксперименты показали, что ArchGPT может давать точные ответы на вопросы, связанные с архитектурой, и обладает возможностью анализировать различные аспекты, такие как стиль, форма, цвет и другие. Данные, полученные с помощью Arch-300K, позволили подтвердить эффективность модели в применении к различным архитектурным стилям и периодам.
## Значимость
Результаты могут быть применены в различных областях:
- **Образование**: Улучшение уровня понимания архитектурных творений у студентов и учащихся.
- **Сохранение культурного наследия**: Повышение доступности информации для широкой аудитории.
- **Профессиональное дизайновое творчество**: Предоставление новых возможностей для творческой работы в области архитектуры.
## Выводы
ArchGPT д
Abstract
Architecture embodies aesthetic, cultural, and historical values, standing as
a tangible testament to human civilization. Researchers have long leveraged
virtual reality (VR), mixed reality (MR), and augmented reality (AR) to enable
immersive exploration and interpretation of architecture, enhancing
accessibility, public understanding, and creative workflows around architecture
in education, heritage preservation, and professional design practice. However,
existing VR/MR/AR systems are often developed case-by-case, relying on
hard-coded annotations and task-specific interactions that do not scale across
diverse built environments. In this work, we present ArchGPT, a multimodal
architectural visual question answering (VQA) model, together with a scalable
data-construction pipeline for curating high-quality, architecture-specific VQA
annotations. This pipeline yields Arch-300K, a domain-specialized dataset of
approximately 315,000 image-question-answer triplets. Arch-300K is built via a
multi-stage process: first, we curate architectural scenes from Wikimedia
Commons and filter unconstrained tourist photo collections using a novel
coarse-to-fine strategy that integrates 3D reconstruction and semantic
segmentation to select occlusion-free, structurally consistent architectural
images. To mitigate noise and inconsistency in raw textual metadata, we propose
an LLM-guided text verification and knowledge-distillation pipeline to generate
reliable, architecture-specific question-answer pairs. Using these curated
images and refined metadata, we further synthesize formal analysis
annotations-including detailed descriptions and aspect-guided conversations-to
provide richer semantic variety while remaining faithful to the data. We
perform supervised fine-tuning of an open-source multimodal backbone
,ShareGPT4V-7B, on Arch-300K, yielding ArchGPT.
Ссылки и действия
Дополнительные ресурсы: