Multimodal Regression for Enzyme Turnover Rates Prediction

2509.11782v1 cs.LG, q-bio.BM 2025-09-17
Авторы:

Bozhen Hu, Cheng Tan, Siyuan Li, Jiangbin Zheng, Sizhe Qiu, Jun Xia, Stan Z. Li

Резюме на русском

## Контекст Область исследования — кинетика энзимов, которая является ключевой для понимания биологических процессов. Одним из ключевых параметров является **оборотная скорость** энзима (turnover rate), отражающая его каталитическую эффективность. Несмотря на важность этого параметра, его измерение затруднено сильными затратами и сложностями экспериментальных методов. Это приводит к тому, что оборотные скорости остаются неизвестными для большинства энзимов, особенно в мелких организмах. Мы предлагаем развить метод, который мог бы предсказать эту важную величину на основе многомерных данных, включая последовательности белков, структуры веществ и внешних факторов окружения. ## Метод Мы предлагаем **многомодальный подход**, который объединяет несколько моделей и архитектур машинного обучения: 1. **Предобученная модель для белков**: Мы используем предобученную модель для извлечения фич из последовательностей белков. 2. **Модель для веществ (substrates)**: Из структур веществ мы извлекаем фичи с помощью **графных нейронных сетей (GNN)**. 3. **Аттенционные механизмы**: Чтобы улучшить взаимодействие между представлениями энзима и вещества, мы применяем механизм агрегирования важности. 4. **Символьная регрессия**: Используя **Kolmogorov-Arnold Networks**, мы научимся выражать свойства катализатора через математические формулы, что обеспечит интерпретируемость результатов. ## Результаты Мы провели эксперименты на выборке данных, содержащей последовательности белков, структуры веществ и известные оборотные скорости. Наша модель демонстрирует существенное превосходство по сравнению с традиционными методами и современными сверточными моделями. Мы достигли **высокой точности** в предсказании оборотных скоростей, также показали, что модель предоставляет **интерпретируемые формулы**, что позволяет понять, какие факторы влияют на оборотную скорость. ## Значимость Наша модель может быть применена в различных областях: 1. **Биотехнологии**: Улучшение производства биологически активных веществ. 2. **Индустрия биокатализаторов**: Новые подходы для оптимизации процессов. 3. **Клиническое применение**: Исследование новых белков с целью улучшения лечения. Этот подход обеспечивает не только точность, но и новые возможности в понимании биологических систем. ## Выводы Мы предложили успешный кросс-модальный подход для предсказания оборотных скоростей энзимов. Модель показала свою эффективность, за счет комбинации нескольких моделей и методов. Этот подход не только улучшает точность предсказания, но и дает интерпретиру

Abstract

The enzyme turnover rate is a fundamental parameter in enzyme kinetics, reflecting the catalytic efficiency of enzymes. However, enzyme turnover rates remain scarce across most organisms due to the high cost and complexity of experimental measurements. To address this gap, we propose a multimodal framework for predicting the enzyme turnover rate by integrating enzyme sequences, substrate structures, and environmental factors. Our model combines a pre-trained language model and a convolutional neural network to extract features from protein sequences, while a graph neural network captures informative representations from substrate molecules. An attention mechanism is incorporated to enhance interactions between enzyme and substrate representations. Furthermore, we leverage symbolic regression via Kolmogorov-Arnold Networks to explicitly learn mathematical formulas that govern the enzyme turnover rate, enabling interpretable and accurate predictions. Extensive experiments demonstrate that our framework outperforms both traditional and state-of-the-art deep learning approaches. This work provides a robust tool for studying enzyme kinetics and holds promise for applications in enzyme engineering, biotechnology, and industrial biocatalysis.

Ссылки и действия