LAMP-PRo: Label-aware Attention for Multi-label Prediction of DNA- and RNA-binding Proteins using Protein Language Models

2509.24262v1 q-bio.QM, cs.AI, cs.LG 2025-10-01
Авторы:

Nimisha Ghosh, Dheeran Sankaran, Rahul Balakrishnan Adhi, Sharath S, Amrut Anand

Резюме на русском

#### Контекст Определение DNA- и RNA-binding proteins (DBPs и RBPs) является важной задачей в геномических и биоинформатических исследованиях. Эти белок-биндинги могут взаимодействовать с ДНК или РНК, определяя ключевые процессы генетического регулирования. Однако существующие подходы сталкиваются с проблемами выявления различий между DBPs и RBPs, что приводит к высокой скорости ошибочных прогнозов. Более сложная задача заключается в идентификации DRBPs — белков, которые способны взаимодействовать с обеими липидами. Чтобы улучшить точность и конкретность таких определений, предлагается новый подход LAMP-PRo, который воспользуется предобученными моделями языка белков и механизмами акцентации. #### Метод LAMP-PRo основывается на модели ESM-2 (protein language model), которая генерирует последовательности белков для последующего обработки. Для улучшения контекстуального понимания применяется CNN и многоголосная самопроизвольная аттенция, чтобы получить класс-специфические представления для DBP, RBP и DRBP. Для более точной идентификации DRBP введена кросс-аттенция, позволяющая перекрестно анализировать взаимосвязи между DBP и RBP. На выходе LAMP-PRo использует линейный слой и функцию сигмоиды для получения предсказаний. Этот подход позволяет не только улучшить предсказания, но и обеспечить представительность модели. #### Результаты Исследования проводились с использованием датасетов, доступных по адресу http://bliulab.net/iDRBP\_MMC. Модель LAMP-PRo показала высокую точность и избежала высокой скорости ошибок в дифференциации DBP и RBP. Измерения показали, что LAMP-PRo превосходит существующие методы, а визуализации результатов демонстрируют, какие части последовательности белка имеют самую высокую зависимость от каждого из классов. #### Значимость LAMP-PRo может применяться в различных биологических и генетических исследованиях для идентификации белков, взаимодействующих с ДНК и РНК. Его преимущества заключаются в точности, уменьшении ошибки кросс-предикции и повышении интерпретируемости решений. Это модель может способствовать развитию технологий в области биоинформатики и генетического регулирования, предоставляя стабильные и интерпретируемые прогнозы. #### Выводы LAMP-PRo является новым подходом к определению DBP, RBP и DRBP, который успешно решает проблему высокой сложности различения между этими классами. Будущие исследования будут сфокусированы на улучшении модели и ее применении в реальных биологических задачах, включая предоставление предсказаний для древовидных структур белков и их взаимодействий с ДНК и Р

Abstract

Identifying DNA- (DBPs) and RNA-binding proteins (RBPs) is crucial for the understanding of cell function, molecular interactions as well as regulatory functions. Owing to their high similarity, most of the existing approaches face challenges in differentiating between DBPs and RBPs leading to high cross-prediction errors. Moreover, identifying proteins which bind to both DNA and RNA (DRBPs) is also quite a challenging task. In this regard, we propose a novel framework viz. LAMP-PRo which is based on pre-trained protein language model (PLM), attention mechanisms and multi-label learning to mitigate these issues. First, pre-trained PLM such ESM-2 is used for embedding the protein sequences followed by convolutional neural network (CNN). Subsequently multi-head self-attention mechanism is applied for the contextual information while label-aware attention is used to compute class-specific representations by attending to the sequence in a way that is tailored to each label (DBP, RBP and non-NABP) in a multi-label setup. We have also included a novel cross-label attention mechanism to explicitly capture dependencies between DNA- and RNA-binding proteins, enabling more accurate prediction of DRBP. Finally, a linear layer followed by a sigmoid function are used for the final prediction. Extensive experiments are carried out to compare LAMP-PRo with the existing methods wherein the proposed model shows consistent competent performance. Furthermore, we also provide visualization to showcase model interpretability, highlighting which parts of the sequence are most relevant for a predicted label. The original datasets are available at http://bliulab.net/iDRBP\_MMC and the codes are available at https://github.com/NimishaGhosh/LAMP-PRo.

Ссылки и действия