Provenance Analysis of Archaeological Artifacts via Multimodal RAG Systems

2509.20769v1 cs.IR, cs.AI, cs.CV 2025-09-26
Авторы:

Tuo Zhang, Yuechun Sun, Ruiliang Liu

Резюме на русском

Опубликовано: 13 января 2025 г. ## Контекст ### Область исследования Проблематика происхождения археологических объектов, или провенанс, является ключевым аспектом вступательного анализа в археологии. Однако традиционные методы анализа часто требуют значительных поправок, введения ручных коррекций и наличия специализированных знаний. Это значительно снижает эффективность и доступность этого процесса для менее опытных исследователей. ### Мотивация Существует необходимость в развитии методов, которые могут автоматически обрабатывать большие корпусы данных, обеспечивая точные и интерпретируемые выводы. Такой подход может существенно сократить время и труд, необходимый для проведения раннего анализа. ## Метод ### Описание методологии Предложенная система основывается на технологии Retrieval-Augmented Generation (RAG) и использует значительные модели зрения и языка (VLMs). Она создает двухрежимную знанийную базу, которая объединяет текстовые справочные материалы и изображения. ### Технические решения Система поддерживает три типа визуального поиска: 1. **Raw Visual Retrieval** — поиск по RAW-изображениям. 2. **Edge-Enhanced Retrieval** — поиск по усиленным контурам. 3. **Semantic Retrieval** — поиск по семантичному содержимому. Выводимое содержимое включает: - Хронологические, географические и культурные принадлежности. - Интерпретируемые выводы с объяснениями. ## Результаты ### Используемые данные Оценка системы проводилась на корпусе из Восточно-Евразийских знаменательных объектов Древней Западной Эры, содержащихся в Британском Музее. ### Результаты экспериментов Система предоставила точные и значимые выводы, включая хронологические и географические характеристики, а также стилистические сходства. Эксперты отметили, что выводы системы значительно облегчают начальный анализ и снижают когнитивную нагрузку. ## Значимость ### Области применения Система может быть применена в археологии, истории искусств и обработке изображений для анализа объектов культурного наследия. ### Преимущества Она обеспечивает точные выводы, снижает когнитивный напряжение исследователей и может быть интегрирована в более широкие инструментальные пакеты для обработки артефактов. ### Потенциальное влияние В будущем это может привести к новым возможностям в цифровой археологии, в том числе автоматического классификации и сравнения объектов. ## Выводы ### Основные достижения Предложенная система демонстрирует высокую эффективность в выводе информации о происхождени

Abstract

In this work, we present a retrieval-augmented generation (RAG)-based system for provenance analysis of archaeological artifacts, designed to support expert reasoning by integrating multimodal retrieval and large vision-language models (VLMs). The system constructs a dual-modal knowledge base from reference texts and images, enabling raw visual, edge-enhanced, and semantic retrieval to identify stylistically similar objects. Retrieved candidates are synthesized by the VLM to generate structured inferences, including chronological, geographical, and cultural attributions, alongside interpretive justifications. We evaluate the system on a set of Eastern Eurasian Bronze Age artifacts from the British Museum. Expert evaluation demonstrates that the system produces meaningful and interpretable outputs, offering scholars concrete starting points for analysis and significantly alleviating the cognitive burden of navigating vast comparative corpora.

Ссылки и действия