Role of Large Language Models and Retrieval-Augmented Generation for Accelerating Crystalline Material Discovery: A Systematic Review

2508.06691v1 cond-mat.mtrl-sci, cs.LG 2025-08-13
Авторы:

Agada Joseph Oche, Arpan Biswas

Резюме на русском

## Контекст Кристаллические материалы широко используются в различных областях, включая электронику, оптику, биомедицину и энергоснабжение. Однако нахождение новых кристаллических материалов для этих приложений требует значительных затрат на время и ресурсы. Традиционные методы исследований, такие как симуляции и эксперименты, требуют многократного повторения тестов, что увеличивает затраты. Большая часть работы выполняется вручную, что ограничивает скорость и эффективность открытия новых материалов. В этой ситуации искусственные нейронные сети, особенно широкомасштабные модели языкового моделирования (LLMs), формируются как мощные инструменты для ускорения процесса открытия материалов. Они могут обрабатывать огромные объемы данных, включая литературу и базы данных, для точечного поиска возможных кандидатов на материалы и выявления новых структур. Наряду с ними, технологии генерируемого восстановления (Retrieval-Augmented Generation, RAG) объединяют МЛМ с доменной информацией, позволяя выполнять более точные и контекстуальные поиски. Целью данного исследования является изучение использования LLMs и RAG в области кристаллической материаловедения, а также определение их потенциала для ускорения процесса открытия материалов. ## Метод Для изучения возможностей LLMs и RAG в кристаллической материаловедении выбрана систематическая методология. Было проведено поисковое исследование по всему миру в базах данных и литературе с использованием ключевых слов, таких как "Large Language Models", "Retrieval-Augmented Generation", "Crystalline Material Discovery", "Materials Science", "Artificial Intelligence in Material Science". Было проанализировано множество работ, включая теоретические работы, экспериментальные исследования и системы, которые использовали МЛМ и RAG для решения проблем кристаллического материаловедения. Был изучен поток работы, включая сбор данных, обучение моделей, интеграцию доменной информации, а также оценку результатов. Была рассмотрена широкая палитра задач, включая кристаллическую структуру, дефекты, открытие материалов, майнинг литературных источников и интеграцию баз данных. Еще одним ключом к изучению было исследование возможностей и ограничений технологий LLM и RAG, а также их сочетания с источниками внешнего знания для повышения эффективности. ## Результаты Исследование выявило несколько направлений, в которых LLMs и RAG достигли удачного результата. Например, в области кристаллической структуры, LLMs показали способность предсказать и анализировать структуры кристаллов, а также выявлять потенциальные дефекты. В области дефектов, LLMs могут определять и прогноз

Abstract

Large language models (LLMs) have emerged as powerful tools for knowledge-intensive tasks across domains. In materials science, to find novel materials for various energy efficient devices for various real-world applications, requires several time and cost expensive simulations and experiments. In order to tune down the uncharted material search space, minimizing the experimental cost, LLMs can play a bigger role to first provide an accelerated search of promising known material candidates. Furthermore, the integration of LLMs with domain-specific information via retrieval-augmented generation (RAG) is poised to revolutionize how researchers predict materials structures, analyze defects, discover novel compounds, and extract knowledge from literature and databases. In motivation to the potentials of LLMs and RAG in accelerating material discovery, this paper presents a broad and systematic review to examine the recent advancements in applying LLMs and RAG to key materials science problems. We survey state-of-the-art developments in crystal structure prediction, defect analysis, materials discovery, literature mining, database integration, and multi-modal retrieval, highlighting how combining LLMs with external knowledge sources enables new capabilities. We discuss the performance, limitations, and implications of these approaches, and outline future directions for leveraging LLMs to accelerate materials research and discovery for advancement in technologies in the area of electronics, optics, biomedical, and energy storage.

Ссылки и действия