LAMP-PRo: Label-aware Attention for Multi-label Prediction of DNA- and RNA-binding Proteins using Protein Language Models
2509.24262v1
q-bio.QM, cs.AI, cs.LG
2025-10-01
Авторы:
Nimisha Ghosh, Dheeran Sankaran, Rahul Balakrishnan Adhi, Sharath S, Amrut Anand
Резюме на русском
#### Контекст
Определение DNA- и RNA-binding proteins (DBPs и RBPs) является важной задачей в геномических и биоинформатических исследованиях. Эти белок-биндинги могут взаимодействовать с ДНК или РНК, определяя ключевые процессы генетического регулирования. Однако существующие подходы сталкиваются с проблемами выявления различий между DBPs и RBPs, что приводит к высокой скорости ошибочных прогнозов. Более сложная задача заключается в идентификации DRBPs — белков, которые способны взаимодействовать с обеими липидами. Чтобы улучшить точность и конкретность таких определений, предлагается новый подход LAMP-PRo, который воспользуется предобученными моделями языка белков и механизмами акцентации.
#### Метод
LAMP-PRo основывается на модели ESM-2 (protein language model), которая генерирует последовательности белков для последующего обработки. Для улучшения контекстуального понимания применяется CNN и многоголосная самопроизвольная аттенция, чтобы получить класс-специфические представления для DBP, RBP и DRBP. Для более точной идентификации DRBP введена кросс-аттенция, позволяющая перекрестно анализировать взаимосвязи между DBP и RBP. На выходе LAMP-PRo использует линейный слой и функцию сигмоиды для получения предсказаний. Этот подход позволяет не только улучшить предсказания, но и обеспечить представительность модели.
#### Результаты
Исследования проводились с использованием датасетов, доступных по адресу http://bliulab.net/iDRBP\_MMC. Модель LAMP-PRo показала высокую точность и избежала высокой скорости ошибок в дифференциации DBP и RBP. Измерения показали, что LAMP-PRo превосходит существующие методы, а визуализации результатов демонстрируют, какие части последовательности белка имеют самую высокую зависимость от каждого из классов.
#### Значимость
LAMP-PRo может применяться в различных биологических и генетических исследованиях для идентификации белков, взаимодействующих с ДНК и РНК. Его преимущества заключаются в точности, уменьшении ошибки кросс-предикции и повышении интерпретируемости решений. Это модель может способствовать развитию технологий в области биоинформатики и генетического регулирования, предоставляя стабильные и интерпретируемые прогнозы.
#### Выводы
LAMP-PRo является новым подходом к определению DBP, RBP и DRBP, который успешно решает проблему высокой сложности различения между этими классами. Будущие исследования будут сфокусированы на улучшении модели и ее применении в реальных биологических задачах, включая предоставление предсказаний для древовидных структур белков и их взаимодействий с ДНК и Р
Abstract
Identifying DNA- (DBPs) and RNA-binding proteins (RBPs) is crucial for the
understanding of cell function, molecular interactions as well as regulatory
functions. Owing to their high similarity, most of the existing approaches face
challenges in differentiating between DBPs and RBPs leading to high
cross-prediction errors. Moreover, identifying proteins which bind to both DNA
and RNA (DRBPs) is also quite a challenging task. In this regard, we propose a
novel framework viz. LAMP-PRo which is based on pre-trained protein language
model (PLM), attention mechanisms and multi-label learning to mitigate these
issues. First, pre-trained PLM such ESM-2 is used for embedding the protein
sequences followed by convolutional neural network (CNN). Subsequently
multi-head self-attention mechanism is applied for the contextual information
while label-aware attention is used to compute class-specific representations
by attending to the sequence in a way that is tailored to each label (DBP, RBP
and non-NABP) in a multi-label setup. We have also included a novel cross-label
attention mechanism to explicitly capture dependencies between DNA- and
RNA-binding proteins, enabling more accurate prediction of DRBP. Finally, a
linear layer followed by a sigmoid function are used for the final prediction.
Extensive experiments are carried out to compare LAMP-PRo with the existing
methods wherein the proposed model shows consistent competent performance.
Furthermore, we also provide visualization to showcase model interpretability,
highlighting which parts of the sequence are most relevant for a predicted
label. The original datasets are available at http://bliulab.net/iDRBP\_MMC and
the codes are available at https://github.com/NimishaGhosh/LAMP-PRo.
Ссылки и действия
Дополнительные ресурсы: