MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis

2509.11335v1 cs.LG, cond-mat.mtrl-sci 2025-09-17

Авторы:

Yonghao Weng, Liqiang Gao, Linwu Zhu, Jian Huang

Резюме на русском

## Контекст Исследование в области материаловедения характеризуется высоким уровнем специализации и требует сложных аналитических техник. Традиционные подходы часто требуют долгого обучения специалистов и значительных вычислительных ресурсов. На смену этим проблемам набирают обороты искусственные нейронные сети, включая гра larne language models (LLMs), которые показали свою мощь в общих задачах, таких как программирование и генерация текста. Однако их потенциал в специфичных задачах, таких как характеризация материалов, еще не подробно изучен. Данный текст посвящен предложению MatQnA, первого многомодального бенчмарк-датсета, специально разработанного для характеризации материалов. Он учитывает 10 основных методов, включая X-ray Photoelectron Spectroscopy (XPS), X-ray Diffraction (XRD) и Scanning Electron Microscopy (SEM). Задача MatQnA — создать комплексный инструмент для проверки готовности AI-моделей к применению в этой области. ## Метод MatQnA использует гибридный подход, комбинирующий глубокое обучение с ручной валидацией. Для построения датасета были собраны и анализированы крупномасштабные данные материалов, включая картинки, тексты и структуры. Методы характеризации были обработаны с помощью техник машинного обучения для получения высококачественных многомодальных примеров. Далее, чтобы обеспечить высокую точность и соответствие реальным задачам, датасет был проверен вручную с участием экспертов. Это привело к разработке 20,000 пар "вопрос-ответ", как в виде нескольких вариантов ответов, так и в виде свободного текста. Архитектура MatQnA основывается на многомодальном подходе, объединяющем текст, изображения и другие метрики, чтобы обеспечить широкий анализ. ## Результаты На этапе экспериментов были протестированы виды глубоких моделей, включая GPT-4.1, Claude 4, Gemini 2.5 и Doubao Vision Pro 32K. Эти модели были распространены на задачи интерпретации и анализа данных материалов. Результаты показали, что модели достигли близких к 90% точности при решении объективных задач, таких как идентификация материалов и оценка характеристик. У некоторых моделей были выявлены слабые места в тех случаях, когда необходимо было объяснение результата. Тем не менее, MatQnA показал мощь LLMs в сфере характеризации материалов, став первым широко измеренным датасетом, позволяющим проверить AI-модели в реальных условиях. ## Значимость MatQnA открывает новые возможности в задачах по характеризации материалов, предоставляя мощный инструмент для обучения и проверки AI-моделей. Он может использоваться в различных областях, включая промышленность

Abstract

Recently, large language models (LLMs) have achieved remarkable breakthroughs in general domains such as programming and writing, and have demonstrated strong potential in various scientific research scenarios. However, the capabilities of AI models in the highly specialized field of materials characterization and analysis have not yet been systematically or sufficiently validated. To address this gap, we present MatQnA, the first multi-modal benchmark dataset specifically designed for material characterization techniques. MatQnA includes ten mainstream characterization methods, such as X-ray Photoelectron Spectroscopy (XPS), X-ray Diffraction (XRD), Scanning Electron Microscopy (SEM), Transmission Electron Microscopy (TEM), etc. We employ a hybrid approach combining LLMs with human-in-the-loop validation to construct high-quality question-answer pairs, integrating both multiple-choice and subjective questions. Our preliminary evaluation results show that the most advanced multi-modal AI models (e.g., GPT-4.1, Claude 4, Gemini 2.5, and Doubao Vision Pro 32K) have already achieved nearly 90% accuracy on objective questions in materials data interpretation and analysis tasks, demonstrating strong potential for applications in materials characterization and analysis. The MatQnA dataset is publicly available at https://huggingface.co/datasets/richardhzgg/matQnA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Universally Converging Representations of Matter Across Scientific Foundation Mo...

Mofasa: A Step Change in Metal-Organic Framework Generation

Modeling and Inverse Identification of Interfacial Heat Conduction in Finite Lay...

Training-Free Active Learning Framework in Materials Science with Large Language...

PRISM: Periodic Representation with multIscale and Similarity graph Modelling fo...

Навигация