PGCLODA: Prompt-Guided Graph Contrastive Learning for Oligopeptide-Infectious Disease Association Prediction

2509.20290v1 cs.LG, cs.AI, q-bio.QM 2025-09-26
Авторы:

Dayu Tan, Jing Chen, Xiaoping Zhou, Yansen Su, Chunhou Zheng

Резюме на русском

## Контекст Инфекционные заболевания остаются серьезной угрозой для общественного здоровья, требуя эффективных вычислительных подходов к обнаружению новых противомикробных средств. Олигопептиды приобрели признание как перспективные кандидаты в антимикробной резистентности. Однако существуют ограничения в использовании вычислительных моделей для предсказания их ассоциации с инфекционными болезнями. Данное исследование предлагает прототип PGCLODA, основанный на графовой контрастирующей обучении с подсказками, для поиска потенциальных ассоциаций. ## Метод Для моделирования ассоциаций построен трипартитный граф, состоящий из узлов: олигопептидов, микробов и заболеваний. Использованы структурные и семантические данные. Выделены фичи с применением графовой сверточной сети (GCN) и модели трансформера. Для поддержания значимых регионов во время обучения применен стратегия продвижения с помощью специальных масках. Объединенные векторы подавались на вход классификатору на основе MLP. ## Результаты Модель протестирована на бенчмарк-датасете. Результаты показали, что PGCLODA превышает современные модели по значениям AUROC, AUPRC и долевой точности. Анализ модулей и гиперпараметров подтвердил качество отдельных компонент. Также проводились случайные исследования, подтверждающие широкую общеизвестную важность модели. ## Значимость PGCLODA может использоваться в антимикробной оптимизации и новых лекарственных средств. Оно предлагает простой, универсальный подход к моделированию ассоциаций, который может быть применен в других генетических и клинических задачах. ## Выводы PGCLODA зарекомендовала себя как продвинутая модель для предсказания ассоциаций между олигопептидами и инфекционными болезнями. Будущие исследования будут сосредоточены на улучшении модели, оценке её стойкости и её применении в других областях.

Abstract

Infectious diseases continue to pose a serious threat to public health, underscoring the urgent need for effective computational approaches to screen novel anti-infective agents. Oligopeptides have emerged as promising candidates in antimicrobial research due to their structural simplicity, high bioavailability, and low susceptibility to resistance. Despite their potential, computational models specifically designed to predict associations between oligopeptides and infectious diseases remain scarce. This study introduces a prompt-guided graph-based contrastive learning framework (PGCLODA) to uncover potential associations. A tripartite graph is constructed with oligopeptides, microbes, and diseases as nodes, incorporating both structural and semantic information. To preserve critical regions during contrastive learning, a prompt-guided graph augmentation strategy is employed to generate meaningful paired views. A dual encoder architecture, integrating Graph Convolutional Network (GCN) and Transformer, is used to jointly capture local and global features. The fused embeddings are subsequently input into a multilayer perceptron (MLP) classifier for final prediction. Experimental results on a benchmark dataset indicate that PGCLODA consistently outperforms state-of-the-art models in AUROC, AUPRC, and accuracy. Ablation and hyperparameter studies confirm the contribution of each module. Case studies further validate the generalization ability of PGCLODA and its potential to uncover novel, biologically relevant associations. These findings offer valuable insights for mechanism-driven discovery and oligopeptide-based drug development. The source code of PGCLODA is available online at https://github.com/jjnlcode/PGCLODA.

Ссылки и действия