All that structure matches does not glitter
2509.12178v1
cs.LG, cond-mat.mtrl-sci
2025-09-17
Авторы:
Maya M. Martirossyan, Thomas Egg, Philipp Hoellmer, George Karypis, Mark Transtrum, Adrian Roitberg, Mingjie Liu, Richard G. Hennig, Ellad B. Tadmor, Stefano Martiniani
Резюме на русском
## Контекст
Современные генерирующие модели для материалов, особенно иннорганических кристаллов, представляют потенциал для значительного теоретического прогресса в предсказании новых структур и составов. Однако развитие этой области напрямую зависит от качественных бенчмарков и информативных данных, которые обеспечивают целесообразное оценивание моделей. В последнее время широко используются подходы к синтезу и оценке материалов, но существуют значительные проблемы, включая недостаточность уникальных кристаллов, неэффективное деление на выборки и неточные метрики бенчмарков. Эти проблемы необходимо устранить для того, чтобы материаловедение и теоретический материалостроение достигли новых высот.
## Метод
Для проблемы предсказания кристаллических структур (CRYSPRO), целесообразно использовать новые методологии, ориентированные на избавление от устаревших структурных метрик и применение мощных методов визуализации и анализа. Мы предлагаем новые методы группировки данных для отсечения неуникальных кристаллов и новые метрики, которые более точно отображают структурную разнообразность. Эти технические решения позволяют повысить качество моделей и ускорить инновационные исследования в области материалов.
## Результаты
Мы провели эксперименты с популярными данными, включая сети глубинного обучения и методы бенчмаркинга. Например, удаление дубликатов из Carbon-24 дало повышение уникальности данных с 40% до 100%. Мы также предложили новый способ разбиения данных Perov-5, чтобы группировать полиморфы в каждой подвыборке. Эти изменения привели к улучшению качества предсказаний и более точным оценкам моделей. Новые метрики, такие как METRe и cRMSE, показали себя эффективнее стандартных метрик, таких как match rate. Эти результаты подтвердили значительное усовершенствование алгоритмов для предсказания кристаллических структур.
## Значимость
Новые подходы к данным и метрикам могут быть применены в многих областях, включая синтез новых материалов, синтетическую химию, криологию и месторождения. Эти методы позволяют улучшить точность бенчмарков, уменьшить разброс результатов и повысить качество моделей. Это может привести к ускорению развития новых технологий и инноваций в промышленных, энергетических и экологических сферах.
## Выводы
Проблемы с данными и метриками в материаловедении широко распространены, но их можно устранить с помощью усовершенствований в методологии и технических решениях. Мы предложили новую разметку данных, улучшенные метрики и подходы к разбиению выборок. Наши рабо
Abstract
Generative models for materials, especially inorganic crystals, hold
potential to transform the theoretical prediction of novel compounds and
structures. Advancement in this field depends critically on robust benchmarks
and minimal, information-rich datasets that enable meaningful model evaluation.
This paper critically examines common datasets and reported metrics for a
crystal structure prediction task$\unicode{x2014}$generating the most likely
structures given the chemical composition of a material. We focus on three key
issues: First, materials datasets should contain unique crystal structures; for
example, we show that the widely-utilized carbon-24 dataset only contains
$\approx$40% unique structures. Second, materials datasets should not be split
randomly if polymorphs of many different compositions are numerous, which we
find to be the case for the perov-5 dataset. Third, benchmarks can mislead if
used uncritically, e.g., reporting a match rate metric without considering the
structural variety exhibited by identical building blocks. To address these
oft-overlooked issues, we introduce several fixes. We provide revised versions
of the carbon-24 dataset: one with duplicates removed, one deduplicated and
split by number of atoms $N$, and two containing only identical structures but
with different unit cells. We also propose a new split for the perov-5 dataset
which ensures polymorphs are grouped within each split subset, setting a more
sensible standard for benchmarking model performance. Finally, we present METRe
and cRMSE, new model evaluation metrics that can correct existing issues with
the match rate metric.