VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

2509.17191v1 cs.CV, cs.CL 2025-09-24

Авторы:

Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao

Резюме на русском

## Контекст В статье описывается проблема анализа культурно-исторических памятников, в том числе древнегреческой глиняной керамики, с помощью многомодальных языковых лингвистических моделей (MLLMs). Несмотря на свои огромные возможности, эти модели часто страдают от недостатка специализированного доменного знания и предрассудков, которые могут привести к неточностям в оценке и анализе таких памятников. Эти ошибки часто возникают при оценке точности, атрибуции и датировки культурных памятников. Улучшение моделей в этой области требует создания производительных методов, которые могут обеспечивать более точный и стабильный анализ. ## Метод В статье представлена VaseVL, система, основанная на последовательном обучении с подкреплением после подготовочного обучения (SFT-then-RL). Она представляет собой подход, в котором обучение с подкреплением используется для оптимизации модели, прошедшей подготовочные стадии обучения. Главный элемент этого подхода заключается в структурировании проблемы задания вопросов и ответов (QA) для древнегреческой керамики, используя типовую систему категорий. Модель VaseVL использует входные данные, такие как изображения керамики, текстовые описания, и получает задачи QA, относящиеся к разным типам керамики и их атрибутам. Метод использует типы задач для уточнения модели и создания ресурсов для дальнейшего анализа. ## Результаты Эксперименты проводились на датасете VaseVQA, состоящем из 31 773 изображений древнегреческой керамики. Модель VaseVL показала выдающиеся результаты в различных задачах, включая классификацию стилей и атрибуцию исторических памятников. Она достигла заметного выигрыша в композиционной устойчивости по сравнению с базовыми моделями, основанными только на обучении с подкреплением. Это подтверждает эффективность метода SFT-then-RL и его возможность усовершенствовать модели в области исторического анализа. ## Значимость Результаты модели VaseVL могут быть применены во всех областях, требующих точного анализа культурных памятников, в том числе в образовательных программах, музеях и исследовательских проектах. Она обеспечивает более точный и композиционно устойчивый анализ, что помогает улучшить процессы восприятия и анализа культурных памятников. Это также предоставляет новые возможности для дальнейших исследований в области машинного обучения для культурных исторических данных. ## Выводы Метод SFT-then-RL, использованный в VaseVL, показал свою эффективность в улучшении систем моделирования языка для анализа культурных памятников. Этот подход может

Abstract

Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-specific performance gaps, and optimize with type-conditioned, compositionality-oriented rewards targeting those gaps. We also release VaseVQA, a comprehensive benchmark of 31,773 images designed to probe deep understanding. Experiments show state-of-the-art results on style classification and historical attribution with marked gains in compositional robustness over SFT-only baselines, validating diagnosis-guided, taxonomy-conditioned reward engineering and providing a reusable resource for future research. Code and dataset will be available at https://github.com/AIGeeksGroup/VaseVQA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация