CROP: Integrating Topological and Spatial Structures via Cross-View Prefixes for Molecular LLMs

2508.06917v1 q-bio.QM, cs.AI 2025-08-14

Авторы:

Jianting Tang, Yubo Wang, Haoyu Cao, Linli Xu

Резюме на русском

#### Контекст В последние годы наука о молекулах получила существенный подъем благодаря прорывным достижениям в области больших языковых моделей (LLMs). Однако, несмотря на их мощь, эти модели часто ограничены в своих возможностях, так как основываются только на последовательности молекул, не учитывая их сложные структуры. Топологические и пространственные структуры молекул представляют собой два дополняющих друг друга вида информации, которые помогают понять свойства и поведение молекул. Несмотря на эти возможности, существующие подходы либо неэффективны, либо не могут комбинировать эти два вида структур, что приводит к потере полезной информации. Для решения этой проблемы мы предлагаем CROP (CROss-view Prefixes) — метод, который эффективно интегрирует обе структурные представления молекул на основе новых концепций. #### Метод CROP представляет собой новую архитектуру, которая использует характеристики молекул, основанные на топологии и пространственных свойствах, для создания более полного представления. Метод включает два ключевых компонента: **SMILES Guided Resampler** и **Structural Embedding Gate**. SMILES Guided Resampler преобразует различные структурные представления (например, графы и изображения) в одну общую последовательность. Это позволяет эффективно использовать ограниченный контекст языковой модели. Затем Structural Embedding Gate преобразует эти преобразованные представления в входные данные для языковой модели. Это позволяет модели не только понимать сложные молекулярные структуры, но также улучшать предсказания свойств и характеристик. #### Результаты Мы провели многочисленные эксперименты для оценки CROP в различных задачах, включая мультимодальное понимание молекул, предсказание их свойств и генерацию химических формул. В сравнении с другими подходами CROP показал значительную выигрышную сторону. Например, в задаче мультимодального понимания, где необходимо совместно использовать графические и изображенияльные представления молекул, CROP превысил другие модели по точности и качеству результатов. Также он улучшил предсказания свойств молекул, таких как степень окисления и молекулярная масса. #### Значимость Метод CROP открывает новые возможности для понимания и применения молекул в различных областях, таких как химическое производство, фармакология и экология. Он позволяет языковым моделям лучше понимать и предсказывать свойства молекул, не только на основе последовательностей, но также с учетом их сложной структуры. Это влечет за собой повышение точности моделей и повышение эффективности в широком спектре приложений. #### Выводы CROP представляет собой прорыв в

Abstract

Recent advances in molecular science have been propelled significantly by large language models (LLMs). However, their effectiveness is limited when relying solely on molecular sequences, which fail to capture the complex structures of molecules. Beyond sequence representation, molecules exhibit two complementary structural views: the first focuses on the topological relationships between atoms, as exemplified by the graph view; and the second emphasizes the spatial configuration of molecules, as represented by the image view. The two types of views provide unique insights into molecular structures. To leverage these views collaboratively, we propose the CROss-view Prefixes (CROP) to enhance LLMs' molecular understanding through efficient multi-view integration. CROP possesses two advantages: (i) efficiency: by jointly resampling multiple structural views into fixed-length prefixes, it avoids excessive consumption of the LLM's limited context length and allows easy expansion to more views; (ii) effectiveness: by utilizing the LLM's self-encoded molecular sequences to guide the resampling process, it boosts the quality of the generated prefixes. Specifically, our framework features a carefully designed SMILES Guided Resampler for view resampling, and a Structural Embedding Gate for converting the resulting embeddings into LLM's prefixes. Extensive experiments demonstrate the superiority of CROP in tasks including molecule captioning, IUPAC name prediction and molecule property prediction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CROP: Integrating Topological and Spatial Structures via Cross-View Prefixes for Molecular LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The BEAT-CF Causal Model: A model for guiding the design of trials and observati...

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

Beyond Protein Language Models: An Agentic LLM Framework for Mechanistic Enzyme ...

Dual-Path Knowledge-Augmented Contrastive Alignment Network for Spatially Resolv...

GeoPl@ntNet: A Platform for Exploring Essential Biodiversity Variables

Навигация