ArchGPT: Understanding the World's Architectures with Large Multimodal Models

2509.20858v1 cs.GR, cs.CV, cs.MM 2025-09-27

Авторы:

Yuze Wang, Luo Yang, Junyi Wang, Yue Qi

Резюме на русском

## Контекст Архитектура является не только функциональным элементом жизни людей, но и творческим и культурным явлением, отображающим ценности, историю и культурные особенности разных народов. Однако существующие виртуальные, повышенной или смешанной реальностях не всегда удается полностью отобразить все значимые аспекты архитектуры, такие как стиль, структура, исторические значения и эстетические характеристики. В этом контексте возникает потребность в развитии методов, позволяющих более глубоко и точно интерпретировать и визуализировать архитектурные объекты, чтобы улучшить понимание и доступность этого направления для различных аудиторий. ## Метод Чтобы решить эту проблему, предлагается ArchGPT — модель визуального вопроса-ответа, объединяющая несколько моделей различных моделей. Её модель основывается на ShareGPT4V-7B, которая была усовершенствована для работы с архитектурными данными. Методология включает несколько ключевых этапов: 1. **Сбор данных**: Используется специальная подборка архивированных сцен из Wikimedia Commons. Для получения качественных изображений проводится фильтрация неконтролируемых туристических фотографий. Это делается с помощью трёхмерного реконструкции и семантической сегментации, чтобы выбрать кристально чистые изображения строений без оккультации. 2. **Очистка и анализ текстовых метаданных**: Для того, чтобы избежать шума и неоднозначности в метаданных, применяется текстовая модель с высоким уровнем технологического прогресса. Она улучшает качество вопросов и ответов, связанных с архитектурой. 3. **Синтез дополнительных данных**: Для повышения семантического разнообразия вводятся дополнительные вопросы-ответы, основанные на глубоких анализах архитектурных элементов. ## Результаты Проведенные эксперименты показали, что ArchGPT может давать точные ответы на вопросы, связанные с архитектурой, и обладает возможностью анализировать различные аспекты, такие как стиль, форма, цвет и другие. Данные, полученные с помощью Arch-300K, позволили подтвердить эффективность модели в применении к различным архитектурным стилям и периодам. ## Значимость Результаты могут быть применены в различных областях: - **Образование**: Улучшение уровня понимания архитектурных творений у студентов и учащихся. - **Сохранение культурного наследия**: Повышение доступности информации для широкой аудитории. - **Профессиональное дизайновое творчество**: Предоставление новых возможностей для творческой работы в области архитектуры. ## Выводы ArchGPT д

Abstract

Architecture embodies aesthetic, cultural, and historical values, standing as a tangible testament to human civilization. Researchers have long leveraged virtual reality (VR), mixed reality (MR), and augmented reality (AR) to enable immersive exploration and interpretation of architecture, enhancing accessibility, public understanding, and creative workflows around architecture in education, heritage preservation, and professional design practice. However, existing VR/MR/AR systems are often developed case-by-case, relying on hard-coded annotations and task-specific interactions that do not scale across diverse built environments. In this work, we present ArchGPT, a multimodal architectural visual question answering (VQA) model, together with a scalable data-construction pipeline for curating high-quality, architecture-specific VQA annotations. This pipeline yields Arch-300K, a domain-specialized dataset of approximately 315,000 image-question-answer triplets. Arch-300K is built via a multi-stage process: first, we curate architectural scenes from Wikimedia Commons and filter unconstrained tourist photo collections using a novel coarse-to-fine strategy that integrates 3D reconstruction and semantic segmentation to select occlusion-free, structurally consistent architectural images. To mitigate noise and inconsistency in raw textual metadata, we propose an LLM-guided text verification and knowledge-distillation pipeline to generate reliable, architecture-specific question-answer pairs. Using these curated images and refined metadata, we further synthesize formal analysis annotations-including detailed descriptions and aspect-guided conversations-to provide richer semantic variety while remaining faithful to the data. We perform supervised fine-tuning of an open-source multimodal backbone ,ShareGPT4V-7B, on Arch-300K, yielding ArchGPT.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ArchGPT: Understanding the World's Architectures with Large Multimodal Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Exploring Palette based Color Guidance in Diffusion Models

Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting

Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstru...

Навигация