CrystalICL: Enabling In-Context Learning for Crystal Generation

2508.20143v1 cs.LG, cond-mat.mtrl-sci 2025-08-30
Авторы:

Ruobing Wang, Qiaoyu Tan, Yili Wang, Ying Wang, Xin Wang

Резюме на русском

## Контекст Научное исследование CrystalICL: Enabling In-Context Learning for Crystal Generation посвящено развитию методов получения кристаллических материалов с желаемыми физико-химическими свойствами. Это задача значимости для материаловедения, так как кристаллы широко применяются в электронике, энергетике и других отраслях. Существующие подходы, основанные на больших языковых моделях (LLM), применяются в нулевом значении (zero-shot) и не могут воспользоваться преимуществами сценариев с несколькими примерами (few-shot). Это ограничение вводит парадокс: люди, разрабатывающие новые материалы, часто ориентируются на известные структуры, что схоже с ситуацией few-shot. Таким образом, нужны модели, которые могли бы эффективно использовать небольшое количество примеров для генерации кристаллических материалов. ## Метод Для решения этой проблемы CrystalICL предлагает новую методологию. Основным элементом является space-group based crystal tokenization, который упрощает моделирование симметрии кристаллов в языковых моделях. Далее, предлагается hybrid instruction tuning framework, который объединяет условия и структуры в одной модели, улучшая её способность понять отношение между свойствами и структурами. Эта модель также использует multi-task instruction tuning, что позволяет ей извлекать более глубокие связи между различными задачами. ## Результаты Исследования проводились на 4 бенчмарках для генерации кристаллов. CrystalICL показала сильное преимущество перед существующими методами в задачах условной и неусловной генерации. Эксперименты показали, что модель не только лучше работает в few-shot сценариях, но и выдает более качественные результаты при нулевом значении. Это свидетельствует о том, что CrystalICL не только справляется с текущими задачами, но и расширяет возможности моделей для генерации кристаллов. ## Значимость CrystalICL открывает новые горизонты в области материаловедения, позволяя эффективно использовать небольшие данные для построения кристаллов с нужными свойствами. Она может быть применена в разработке новых материалов для электроники, солнечных элементов и других приложений. Этот подход увеличивает точность и устойчивость генерации кристаллов, а также демонстрирует новые подходы для обучения с подкреплением (reinforcement learning) в материаловедении. ## Выводы CrystalICL доказала свою эффективность в решении задач генерации кристаллов. Будущие исследования будут направлены на улучшение точности генерации, добавление более широкого спектра примеров и исследование возможности применения данного подхода в реальных производственных условиях. Это может привести к новым перспективам в материаловедении и инновациях в технологиях.

Abstract

Designing crystal materials with desired physicochemical properties remains a fundamental challenge in materials science. While large language models (LLMs) have demonstrated strong in-context learning (ICL) capabilities, existing LLM-based crystal generation approaches are limited to zero-shot scenarios and are unable to benefit from few-shot scenarios. In contrast, human experts typically design new materials by modifying relevant known structures which aligns closely with the few-shot ICL paradigm. Motivated by this, we propose CrystalICL, a novel model designed for few-shot crystal generation. Specifically, we introduce a space-group based crystal tokenization method, which effectively reduces the complexity of modeling crystal symmetry in LLMs. We further introduce a condition-structure aware hybrid instruction tuning framework and a multi-task instruction tuning strategy, enabling the model to better exploit ICL by capturing structure-property relationships from limited data. Extensive experiments on four crystal generation benchmarks demonstrate the superiority of CrystalICL over the leading baseline methods on conditional and unconditional generation tasks.

Ссылки и действия