MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis
2509.11335v1
cs.LG, cond-mat.mtrl-sci
2025-09-17
Авторы:
Yonghao Weng, Liqiang Gao, Linwu Zhu, Jian Huang
Резюме на русском
## Контекст
Исследование в области материаловедения характеризуется высоким уровнем специализации и требует сложных аналитических техник. Традиционные подходы часто требуют долгого обучения специалистов и значительных вычислительных ресурсов. На смену этим проблемам набирают обороты искусственные нейронные сети, включая гра larne language models (LLMs), которые показали свою мощь в общих задачах, таких как программирование и генерация текста. Однако их потенциал в специфичных задачах, таких как характеризация материалов, еще не подробно изучен. Данный текст посвящен предложению MatQnA, первого многомодального бенчмарк-датсета, специально разработанного для характеризации материалов. Он учитывает 10 основных методов, включая X-ray Photoelectron Spectroscopy (XPS), X-ray Diffraction (XRD) и Scanning Electron Microscopy (SEM). Задача MatQnA — создать комплексный инструмент для проверки готовности AI-моделей к применению в этой области.
## Метод
MatQnA использует гибридный подход, комбинирующий глубокое обучение с ручной валидацией. Для построения датасета были собраны и анализированы крупномасштабные данные материалов, включая картинки, тексты и структуры. Методы характеризации были обработаны с помощью техник машинного обучения для получения высококачественных многомодальных примеров. Далее, чтобы обеспечить высокую точность и соответствие реальным задачам, датасет был проверен вручную с участием экспертов. Это привело к разработке 20,000 пар "вопрос-ответ", как в виде нескольких вариантов ответов, так и в виде свободного текста. Архитектура MatQnA основывается на многомодальном подходе, объединяющем текст, изображения и другие метрики, чтобы обеспечить широкий анализ.
## Результаты
На этапе экспериментов были протестированы виды глубоких моделей, включая GPT-4.1, Claude 4, Gemini 2.5 и Doubao Vision Pro 32K. Эти модели были распространены на задачи интерпретации и анализа данных материалов. Результаты показали, что модели достигли близких к 90% точности при решении объективных задач, таких как идентификация материалов и оценка характеристик. У некоторых моделей были выявлены слабые места в тех случаях, когда необходимо было объяснение результата. Тем не менее, MatQnA показал мощь LLMs в сфере характеризации материалов, став первым широко измеренным датасетом, позволяющим проверить AI-модели в реальных условиях.
## Значимость
MatQnA открывает новые возможности в задачах по характеризации материалов, предоставляя мощный инструмент для обучения и проверки AI-моделей. Он может использоваться в различных областях, включая промышленность
Abstract
Recently, large language models (LLMs) have achieved remarkable breakthroughs
in general domains such as programming and writing, and have demonstrated
strong potential in various scientific research scenarios. However, the
capabilities of AI models in the highly specialized field of materials
characterization and analysis have not yet been systematically or sufficiently
validated. To address this gap, we present MatQnA, the first multi-modal
benchmark dataset specifically designed for material characterization
techniques. MatQnA includes ten mainstream characterization methods, such as
X-ray Photoelectron Spectroscopy (XPS), X-ray Diffraction (XRD), Scanning
Electron Microscopy (SEM), Transmission Electron Microscopy (TEM), etc. We
employ a hybrid approach combining LLMs with human-in-the-loop validation to
construct high-quality question-answer pairs, integrating both multiple-choice
and subjective questions. Our preliminary evaluation results show that the most
advanced multi-modal AI models (e.g., GPT-4.1, Claude 4, Gemini 2.5, and Doubao
Vision Pro 32K) have already achieved nearly 90% accuracy on objective
questions in materials data interpretation and analysis tasks, demonstrating
strong potential for applications in materials characterization and analysis.
The MatQnA dataset is publicly available at
https://huggingface.co/datasets/richardhzgg/matQnA.