PLaID++: A Preference Aligned Language Model for Targeted Inorganic Materials Design
2509.07150v1
cs.LG, cond-mat.mtrl-sci
2025-09-11
Авторы:
Andy Xu, Rohan Desai, Larry Wang, Gabriel Hope, Ethan Ritz
Резюме на русском
#### Контекст
Область исследования, посвященная разработке новых материалов, играет ключевую роль в продвижении технологий, таких как солнечные элементы, аккумуляторы и системы улавливания углекислого газа. Однако разработка новых материалов требует огромных затрат времени и ресурсов из-за зависимости от традиционных методов проб и ошибок. Это приводит к замедлению прогресса в технологическом развитии. Для ускорения этого процесса введена PLaID++, представляющая собой Large Language Model (LLM), который был призван усовершенствовать генерацию кристаллов с использованием новых методик. Эта модель является одной из первых попыток применить новые модели текстового представления к материаловедческим задачам.
#### Метод
PLaID++ создан на основе Qwen-2.5 7B, трехлингвого модели, которая была уже применена в области текстового представления для химических соединений. Модель была приведена к устойчивости и ориентирована на генерацию кристаллов с учетом свойств, которые можно контролировать. Тексты, используемые для генерации кристаллов, были представлены в новом формате, основанном на Wyckoff-позициях. Для улучшения стабильности и гибкости генерации использовалась методология Direct Preference Optimization (DPO), которая использует схему награждения для гарантии высокой стабильности и уникальности генерируемых кристаллов.
#### Результаты
Исследование охватило сравнение PLaID++ с другими подходами в области генерации кристаллов. На тестирующих выборках метод PLaID++ показал стабильность и уникальность кристаллов не только в условиях полного исключения других факторов, но и при условии задания желаемой структуры пространственных групп. Например, PLaID++ способен работать с учетом предпочтений пользователя и генерировать кристаллы со свойствами, заданными в задаче. Измерения производительности показали, что PLaID++ выполняет генерацию кристаллов с значительно большей устойчивостью и уникальностью, а также создает кристаллы с заданными свойствами пространственных групп на 115% и 50% лучше, соответственно, чем традиционные подходы.
#### Значимость
PLaID++ может быть применена в различных областях высоких технологий, включая разработку солнечных элементов, батареей и системы углекислого газа. Он значительно сокращает время необходимого для разработки материалов, уменьшая количество экспериментов на пробной площадке. Благодаря DPO-методу, PLaID++ позволяет управлять не только стабильностью, но и свойствами, такими как местонахождение в пространственных группах. Это открывает путь к более эффективному и целеустремленному поис
Abstract
Discovering novel materials is critical for technological advancements such
as solar cells, batteries, and carbon capture. However, the development of new
materials is constrained by a slow and expensive trial-and-error process. To
accelerate this pipeline, we introduce PLaID++, a Large Language Model (LLM)
fine-tuned for stable and property-guided crystal generation. We fine-tune
Qwen-2.5 7B to generate crystal structures using a novel Wyckoff-based text
representation. We show that generation can be effectively guided with a
reinforcement learning technique based on Direct Preference Optimization (DPO),
with sampled structures categorized by their stability, novelty, and space
group. By encoding symmetry constraints directly into text and guiding model
outputs towards desirable chemical space, PLaID++ generates structures that are
thermodynamically stable, unique, and novel at a $\sim$50\% greater rate than
prior methods and conditionally generates structures with desired space group
properties. Our experiments highlight the effectiveness of iterative DPO,
achieving $\sim$115\% and $\sim$50\% improvements in unconditional and space
group conditioned generation, respectively, compared to fine-tuning alone. Our
work demonstrates the potential of adapting post-training techniques from
natural language processing to materials design, paving the way for targeted
and efficient discovery of novel materials.