Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization
2509.09307v1
cs.CV, cs.AI, cs.CL, cs.MM
2025-09-13
Авторы:
Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang
Резюме на русском
## Контекст
Исследования в области материаловедения становятся все более важной частью самого материаловедческого процесса. Целью является получение полного понимания материалов в различных состояниях и условиях, чтобы раскрыть свойства, связанные с процессом их изготовления, микроструктурой и поведением в различных приложениях. Однако с тех пор, как материаловедение стало более цифровой, возникла необходимость в автоматизации и улучшении концептуального понимания материалов. Одна из самых трудных задач в этой области - это понимание изображений, полученных в результате различных методов материаловедческого анализа. Несмотря на то, что модели языка и изображений в последние годы достигли невероятных успехов, их применимость к материаловедческой области, особенно для решения задач, требующих высокой степени специализации, остается недостаточно изученной. Это привело к необходимости в развитии бенчмарков, которые могут эффективно помочь в изучении этих проблем.
## Метод
Для решения этой задачи был разработан бенчмарк под названием MatCha, который представляет собой набор вопросов, разработанных специалистами в области материаловедения. Эти вопросы требуют высокого уровня знаний и опыта в области материаловедения, чтобы они могли быть однозначно решены. MatCha включает в себя четыре основных этапа материаловедения, включая 21 отдельных задач, касающихся различных аспектов материаловедческого анализа, включая изображения, визуальные данные и другие связанные с ними задачи. Эталонные модели, которым полагается MatCha, построены на базе многомодальных язучих моделей (MLLMs), которые используют изображения и текст вместе для анализа и понимания сложных материаловедческих задач.
## Результаты
В ходе экспериментов, проведенных на базе MatCha, было определено, что существует существенное различие между моделями МЛЛМ и человеческим опытом в решении задач, требующих высокого уровня концептуального понимания. Эти модели работают лучше на задачах, требующих простого логического анализа, но сталкиваются с проблемами при работе с данными, требующими высокого уровня специализации и визуальной подготовки. Например, модели MLLMs сталкиваются с трудностями при выявлении тонких отличий в изображениях, требующих высокого уровня знаний и опыта в области материаловедения. Таким образом, эти результаты показывают, что текущие модели МЛЛМ не могут работать на уровне человеческого опыта в области материаловедческого анализа.
## Значимость
MatCha может использоваться в различных сферах, включая автоматизацию и улучшение процессов ма
Abstract
Materials characterization is fundamental to acquiring materials information,
revealing the processing-microstructure-property relationships that guide
material design and optimization. While multimodal large language models
(MLLMs) have recently shown promise in generative and predictive tasks within
materials science, their capacity to understand real-world characterization
imaging data remains underexplored. To bridge this gap, we present MatCha, the
first benchmark for materials characterization image understanding, comprising
1,500 questions that demand expert-level domain expertise. MatCha encompasses
four key stages of materials research comprising 21 distinct tasks, each
designed to reflect authentic challenges faced by materials scientists. Our
evaluation of state-of-the-art MLLMs on MatCha reveals a significant
performance gap compared to human experts. These models exhibit degradation
when addressing questions requiring higher-level expertise and sophisticated
visual perception. Simple few-shot and chain-of-thought prompting struggle to
alleviate these limitations. These findings highlight that existing MLLMs still
exhibit limited adaptability to real-world materials characterization
scenarios. We hope MatCha will facilitate future research in areas such as new
material discovery and autonomous scientific agents. MatCha is available at
https://github.com/FreedomIntelligence/MatCha.