MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs
2508.02066v1
cs.LG, cs.AI, cs.CL
2025-08-09
Авторы:
Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao
Резюме на русском
Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.
Abstract
Large Language Models(LLMs) have demonstrated remarkable performance across
various domains, yet their capabilities in molecular reasoning remain
insufficiently explored. Current approaches tend to rely heavily on
general-purpose prompting, which lacks domain-specific molecular semantics,
while those that use fine-tuning strategies often face challenges with
interpretability and reasoning depth. To address these issues, we introduce
MolReasoner, a two-stage framework designed to transition LLMs from
memorization towards chemical reasoning. First, we propose Mol-SFT, which
initializes the model's reasoning abilities via synthetic Chain-of-Thought(CoT)
samples generated by GPT-4o and verified for chemical accuracy. Subsequently,
Mol-RL applies reinforcement learning with specialized reward functions
designed explicitly to align chemical structures with linguistic descriptions,
thereby enhancing molecular reasoning capabilities. Our approach notably
enhances interpretability, improving the model 's molecular understanding and
enabling better generalization. Extensive experiments demonstrate that
MolReasoner outperforms existing methods, and marking a significant shift from
memorization-based outputs to robust chemical reasoning.
Ссылки и действия
Дополнительные ресурсы: