Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

2509.09307v1 cs.CV, cs.AI, cs.CL, cs.MM 2025-09-13

Авторы:

Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang

Резюме на русском

## Контекст Исследования в области материаловедения становятся все более важной частью самого материаловедческого процесса. Целью является получение полного понимания материалов в различных состояниях и условиях, чтобы раскрыть свойства, связанные с процессом их изготовления, микроструктурой и поведением в различных приложениях. Однако с тех пор, как материаловедение стало более цифровой, возникла необходимость в автоматизации и улучшении концептуального понимания материалов. Одна из самых трудных задач в этой области - это понимание изображений, полученных в результате различных методов материаловедческого анализа. Несмотря на то, что модели языка и изображений в последние годы достигли невероятных успехов, их применимость к материаловедческой области, особенно для решения задач, требующих высокой степени специализации, остается недостаточно изученной. Это привело к необходимости в развитии бенчмарков, которые могут эффективно помочь в изучении этих проблем. ## Метод Для решения этой задачи был разработан бенчмарк под названием MatCha, который представляет собой набор вопросов, разработанных специалистами в области материаловедения. Эти вопросы требуют высокого уровня знаний и опыта в области материаловедения, чтобы они могли быть однозначно решены. MatCha включает в себя четыре основных этапа материаловедения, включая 21 отдельных задач, касающихся различных аспектов материаловедческого анализа, включая изображения, визуальные данные и другие связанные с ними задачи. Эталонные модели, которым полагается MatCha, построены на базе многомодальных язучих моделей (MLLMs), которые используют изображения и текст вместе для анализа и понимания сложных материаловедческих задач. ## Результаты В ходе экспериментов, проведенных на базе MatCha, было определено, что существует существенное различие между моделями МЛЛМ и человеческим опытом в решении задач, требующих высокого уровня концептуального понимания. Эти модели работают лучше на задачах, требующих простого логического анализа, но сталкиваются с проблемами при работе с данными, требующими высокого уровня специализации и визуальной подготовки. Например, модели MLLMs сталкиваются с трудностями при выявлении тонких отличий в изображениях, требующих высокого уровня знаний и опыта в области материаловедения. Таким образом, эти результаты показывают, что текущие модели МЛЛМ не могут работать на уровне человеческого опыта в области материаловедческого анализа. ## Значимость MatCha может использоваться в различных сферах, включая автоматизацию и улучшение процессов ма

Abstract

Materials characterization is fundamental to acquiring materials information, revealing the processing-microstructure-property relationships that guide material design and optimization. While multimodal large language models (MLLMs) have recently shown promise in generative and predictive tasks within materials science, their capacity to understand real-world characterization imaging data remains underexplored. To bridge this gap, we present MatCha, the first benchmark for materials characterization image understanding, comprising 1,500 questions that demand expert-level domain expertise. MatCha encompasses four key stages of materials research comprising 21 distinct tasks, each designed to reflect authentic challenges faced by materials scientists. Our evaluation of state-of-the-art MLLMs on MatCha reveals a significant performance gap compared to human experts. These models exhibit degradation when addressing questions requiring higher-level expertise and sophisticated visual perception. Simple few-shot and chain-of-thought prompting struggle to alleviate these limitations. These findings highlight that existing MLLMs still exhibit limited adaptability to real-world materials characterization scenarios. We hope MatCha will facilitate future research in areas such as new material discovery and autonomous scientific agents. MatCha is available at https://github.com/FreedomIntelligence/MatCha.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answeri...

MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

Seeing Culture: A Benchmark for Visual Reasoning and Grounding

Recurrence Meets Transformers for Universal Multimodal Retrieval

Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimiz...

Навигация