Multimodal Regression for Enzyme Turnover Rates Prediction
2509.11782v1
cs.LG, q-bio.BM
2025-09-17
Авторы:
Bozhen Hu, Cheng Tan, Siyuan Li, Jiangbin Zheng, Sizhe Qiu, Jun Xia, Stan Z. Li
Резюме на русском
## Контекст
Область исследования — кинетика энзимов, которая является ключевой для понимания биологических процессов. Одним из ключевых параметров является **оборотная скорость** энзима (turnover rate), отражающая его каталитическую эффективность. Несмотря на важность этого параметра, его измерение затруднено сильными затратами и сложностями экспериментальных методов. Это приводит к тому, что оборотные скорости остаются неизвестными для большинства энзимов, особенно в мелких организмах. Мы предлагаем развить метод, который мог бы предсказать эту важную величину на основе многомерных данных, включая последовательности белков, структуры веществ и внешних факторов окружения.
## Метод
Мы предлагаем **многомодальный подход**, который объединяет несколько моделей и архитектур машинного обучения:
1. **Предобученная модель для белков**: Мы используем предобученную модель для извлечения фич из последовательностей белков.
2. **Модель для веществ (substrates)**: Из структур веществ мы извлекаем фичи с помощью **графных нейронных сетей (GNN)**.
3. **Аттенционные механизмы**: Чтобы улучшить взаимодействие между представлениями энзима и вещества, мы применяем механизм агрегирования важности.
4. **Символьная регрессия**: Используя **Kolmogorov-Arnold Networks**, мы научимся выражать свойства катализатора через математические формулы, что обеспечит интерпретируемость результатов.
## Результаты
Мы провели эксперименты на выборке данных, содержащей последовательности белков, структуры веществ и известные оборотные скорости. Наша модель демонстрирует существенное превосходство по сравнению с традиционными методами и современными сверточными моделями. Мы достигли **высокой точности** в предсказании оборотных скоростей, также показали, что модель предоставляет **интерпретируемые формулы**, что позволяет понять, какие факторы влияют на оборотную скорость.
## Значимость
Наша модель может быть применена в различных областях:
1. **Биотехнологии**: Улучшение производства биологически активных веществ.
2. **Индустрия биокатализаторов**: Новые подходы для оптимизации процессов.
3. **Клиническое применение**: Исследование новых белков с целью улучшения лечения. Этот подход обеспечивает не только точность, но и новые возможности в понимании биологических систем.
## Выводы
Мы предложили успешный кросс-модальный подход для предсказания оборотных скоростей энзимов. Модель показала свою эффективность, за счет комбинации нескольких моделей и методов. Этот подход не только улучшает точность предсказания, но и дает интерпретиру
Abstract
The enzyme turnover rate is a fundamental parameter in enzyme kinetics,
reflecting the catalytic efficiency of enzymes. However, enzyme turnover rates
remain scarce across most organisms due to the high cost and complexity of
experimental measurements. To address this gap, we propose a multimodal
framework for predicting the enzyme turnover rate by integrating enzyme
sequences, substrate structures, and environmental factors. Our model combines
a pre-trained language model and a convolutional neural network to extract
features from protein sequences, while a graph neural network captures
informative representations from substrate molecules. An attention mechanism is
incorporated to enhance interactions between enzyme and substrate
representations. Furthermore, we leverage symbolic regression via
Kolmogorov-Arnold Networks to explicitly learn mathematical formulas that
govern the enzyme turnover rate, enabling interpretable and accurate
predictions. Extensive experiments demonstrate that our framework outperforms
both traditional and state-of-the-art deep learning approaches. This work
provides a robust tool for studying enzyme kinetics and holds promise for
applications in enzyme engineering, biotechnology, and industrial biocatalysis.
Ссылки и действия
Дополнительные ресурсы: