PhenoGnet: A Graph-Based Contrastive Learning Framework for Disease Similarity Prediction

2509.14037v1 q-bio.GN, cs.AI, cs.LG 2025-09-19
Авторы:

Ranga Baminiwatte, Kazi Jewel Rana, Aaron J. Masino

Резюме на русском

#### Контекст Понимание сходства заболеваний является ключевым аспектом в развитии процедур диагностики, разработки новых лекарств и создания персонализированных стратегий лечения. Однако существующие методы часто ограничиваются в той или иной мере в своих возможностях, не полностью учтены латентные биологические отношения. Эта проблема мотивирует разработку систем, которые могут лучше учитывать генетические, фенотипические и сетевые связи. #### Метод PhenoGnet — это новый фреймворк, основанный на графах и методах противоположности, разработанный для прогнозирования сходства заболеваний. Он состоит из двух основных компонентов: модели внутреннего и кросс-вида. Модель внутреннего вида использует Graph Convolutional Networks (GCNs) и Graph Attention Networks (GATs) для энкодинга генов и фенотипов. Модель кросс-вида, в свою очередь, представлена сверточной нейросетью с общими весами, которая вырабатывает закономерности между генами и фенотипами с помощью контрастного обучения. Тренировочные данные состоят из положительных пар (векторов генов и фенотипов, связанных с одним заболеванием) и отрицательных пар (случайно подобранных невзаимосвязанных векторов). Размерность векторов — 256. Оценка происходит с помощью метрик AUCPR и AUROC по сравнению с существующими методами. #### Результаты Использовались данные из Human Phenotype Ontology (HPO) и gene-phenotype associations. Модель была тренирована и протестирована на базе около 1100 пар сходных и 866 пар несходных заболеваний. Генно-ориентированные эмбеддинги показали AUCPR в 0.9012 и AUROC в 0.8764, превосходя существующие алгоритмы. Этот результат достигнут благодаря способности PhenoGnet кластеризовать биологически связанные гены и фенотипы, даже если они не являются прямыми соседями в сети. #### Значимость PhenoGnet может быть применен в различных областях, включая раннее диагностирование редких заболеваний, разработку новых лекарств и прогнозирование реакций на них. Он предлагает сценарий, где модель работает с интерпретируемыми векторами, что повышает его привлекательность для практического применения. Этот подход может способствовать улучшению здравоохранения, облегчению научных исследований и ускорению выявления лекарств. #### Выводы PhenoGnet доказал свою эффективность в предсказании сходства заболеваний, предлагая новый подход к решению этой задачи. Будущие исследования будут сфокусированы на улучшении модели, расширении набора данных и исследовании его применения в реальных клинических случаях.

Abstract

Understanding disease similarity is critical for advancing diagnostics, drug discovery, and personalized treatment strategies. We present PhenoGnet, a novel graph-based contrastive learning framework designed to predict disease similarity by integrating gene functional interaction networks with the Human Phenotype Ontology (HPO). PhenoGnet comprises two key components: an intra-view model that separately encodes gene and phenotype graphs using Graph Convolutional Networks (GCNs) and Graph Attention Networks (GATs), and a cross view model implemented as a shared weight multilayer perceptron (MLP) that aligns gene and phenotype embeddings through contrastive learning. The model is trained using known gene phenotype associations as positive pairs and randomly sampled unrelated pairs as negatives. Diseases are represented by the mean embeddings of their associated genes and/or phenotypes, and pairwise similarity is computed via cosine similarity. Evaluation on a curated benchmark of 1,100 similar and 866 dissimilar disease pairs demonstrates strong performance, with gene based embeddings achieving an AUCPR of 0.9012 and AUROC of 0.8764, outperforming existing state of the art methods. Notably, PhenoGnet captures latent biological relationships beyond direct overlap, offering a scalable and interpretable solution for disease similarity prediction. These results underscore its potential for enabling downstream applications in rare disease research and precision medicine.

Ссылки и действия

Связанные статьи

Deep Generative Models for Discrete Genotype Simulation

#### Контекст Генетические данные являются ключевым ресурсом для понимания наследственных факторов в отношении здоровья...

2025-08-16