$\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models

2508.08657v1 cs.LG, cs.AI, cs.CL 2025-08-14

Авторы:

Jiaxin Ju, Yizhen Zheng, Huan Yee Koh, Can Wang, Shirui Pan

Резюме на русском

#### Контекст Аккуратная предсказание свойств молекул является ключевой проблемой в области химии, материаловедения и наук о лекарствах. Существующие методы, такие как фингерпринты и графовые нейронные сети (GNN), достигли выдающихся результатов, оперируя функциональными признаками молекул. Однако они часто игнорируют значительные объемы семантической и контекстуальной информации, накопленной в течение десятков лет исследований. Недавние достижения в области больших языковых моделей (LLM) показали, что они обладают выдающимися рассудочными способностями и могут применяться к различным задачам в научных дисциплинах. Идея: LLMs могут генерировать богатые представления молекул, если будут способны обобщаться в разных сферах. #### Метод Мы предлагаем $\text{M}^{2}$LLM — продолжение продолжение идеи "многоперспективного" узнавания, которая интегрирует три основных перспективы молекул: 1) микроскопическая — структурная модель, 2) макроскопическая — задачи, с которыми связана молекула, 3) абстрактная — правила, определяющие свойства молекул. Данные представления соединены динамически, чтобы можно было приспособится к разным задачам. Благодаря тому, что LLM генерирует молекулярные представления, характеризующиеся векторами, и применяет расширенные методы рассуждения, $\text{M}^{2}$LLM показывает новый уровень качества в задачах классификации и регрессии. #### Результаты Мы провели эксперименты на нескольких бенчмарках, проверяя $\text{M}^{2}$LLM на задачах классификации и регрессии. Результаты показали, что модель достигла лидирующих показателей, превосходя существующие методы. Особенно выдающимся оказался показатель качества представлений, которые были получены благодаря возможностям LLM в генерации и анализе молекулярных данных. Это демонстрирует, что LLMs могут значительно улучшить обработку и предсказание молекулярных свойств. #### Значимость $\text{M}^{2}$LLM может применяться во многих областях — от науки о лекарствах до материаловедения. Особым преимуществом является ее универсальность и адаптивность к различным задачам. Функциональность, связанная с генерацией и обобщением молекулярных представлений, позволяет получать точные результаты. Это может способствовать развитию новых лекарств, ускорению циклов исследований и повышению эффективности технологий в материаловедении. #### Выводы $\text{M}^{2}$LLM достигает новых высот в предсказании свойств молекул, используя три перспективы и новые возможности LLMs. Будущие исследования будут сфокусированы на повышении точности и о

Abstract

Accurate molecular property prediction is a critical challenge with wide-ranging applications in chemistry, materials science, and drug discovery. Molecular representation methods, including fingerprints and graph neural networks (GNNs), achieve state-of-the-art results by effectively deriving features from molecular structures. However, these methods often overlook decades of accumulated semantic and contextual knowledge. Recent advancements in large language models (LLMs) demonstrate remarkable reasoning abilities and prior knowledge across scientific domains, leading us to hypothesize that LLMs can generate rich molecular representations when guided to reason in multiple perspectives. To address these gaps, we propose $\text{M}^{2}$LLM, a multi-view framework that integrates three perspectives: the molecular structure view, the molecular task view, and the molecular rules view. These views are fused dynamically to adapt to task requirements, and experiments demonstrate that $\text{M}^{2}$LLM achieves state-of-the-art performance on multiple benchmarks across classification and regression tasks. Moreover, we demonstrate that representation derived from LLM achieves exceptional performance by leveraging two core functionalities: the generation of molecular embeddings through their encoding capabilities and the curation of molecular features through advanced reasoning processes.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

$\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация