CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
2508.03159v1
cs.LG, cs.AI
2025-08-09
Авторы:
Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
Резюме на русском
Токсичность лекарств остается основной проблемой в фармацевтическом развитии, требуя эффективных методов оценки в условиях ограниченных данных и неполного понимания биологических механизмов. Авторы предлагают CoTox, новую систему на основе лардж-легло-модели GPT-4o, которая использует chain-of-thought (CoT) для пошагового реактивного рассуждения и предсказания токсичности. Она объединяет данные химических структур, биологических путей и терминов Gene Ontology (GO), обеспечивая интерпретируемые и обоснованные прогнозы. Авторы показали, что CoTox превосходит обычные машинно-обученные модели, а также продемонстрировали ее преимущества с использованием различных LLMs. Особый упор сделан на том, что применение IUPAC-названий вместо SMILES улучшает причинность и точность прогнозов. Результаты показывают, что CoTox может стать ценным инструментом для безопасности лекарств в ранних стадиях их разработки.
Abstract
Drug toxicity remains a major challenge in pharmaceutical development. Recent
machine learning models have improved in silico toxicity prediction, but their
reliance on annotated data and lack of interpretability limit their
applicability. This limits their ability to capture organ-specific toxicities
driven by complex biological mechanisms. Large language models (LLMs) offer a
promising alternative through step-by-step reasoning and integration of textual
data, yet prior approaches lack biological context and transparent rationale.
To address this issue, we propose CoTox, a novel framework that integrates LLM
with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox
combines chemical structure data, biological pathways, and gene ontology (GO)
terms to generate interpretable toxicity predictions through step-by-step
reasoning. Using GPT-4o, we show that CoTox outperforms both traditional
machine learning and deep learning model. We further examine its performance
across various LLMs to identify where CoTox is most effective. Additionally, we
find that representing chemical structures with IUPAC names, which are easier
for LLMs to understand than SMILES, enhances the model's reasoning ability and
improves predictive performance. To demonstrate its practical utility in drug
development, we simulate the treatment of relevant cell types with drug and
incorporated the resulting biological context into the CoTox framework. This
approach allow CoTox to generate toxicity predictions aligned with
physiological responses, as shown in case study. This result highlights the
potential of LLM-based frameworks to improve interpretability and support
early-stage drug safety assessment. The code and prompt used in this work are
available at https://github.com/dmis-lab/CoTox.
Ссылки и действия
Дополнительные ресурсы: