PhenoGnet: A Graph-Based Contrastive Learning Framework for Disease Similarity Prediction
2509.14037v1
q-bio.GN, cs.AI, cs.LG
2025-09-19
Авторы:
Ranga Baminiwatte, Kazi Jewel Rana, Aaron J. Masino
Резюме на русском
#### Контекст
Понимание сходства заболеваний является ключевым аспектом в развитии процедур диагностики, разработки новых лекарств и создания персонализированных стратегий лечения. Однако существующие методы часто ограничиваются в той или иной мере в своих возможностях, не полностью учтены латентные биологические отношения. Эта проблема мотивирует разработку систем, которые могут лучше учитывать генетические, фенотипические и сетевые связи.
#### Метод
PhenoGnet — это новый фреймворк, основанный на графах и методах противоположности, разработанный для прогнозирования сходства заболеваний. Он состоит из двух основных компонентов: модели внутреннего и кросс-вида. Модель внутреннего вида использует Graph Convolutional Networks (GCNs) и Graph Attention Networks (GATs) для энкодинга генов и фенотипов. Модель кросс-вида, в свою очередь, представлена сверточной нейросетью с общими весами, которая вырабатывает закономерности между генами и фенотипами с помощью контрастного обучения. Тренировочные данные состоят из положительных пар (векторов генов и фенотипов, связанных с одним заболеванием) и отрицательных пар (случайно подобранных невзаимосвязанных векторов). Размерность векторов — 256. Оценка происходит с помощью метрик AUCPR и AUROC по сравнению с существующими методами.
#### Результаты
Использовались данные из Human Phenotype Ontology (HPO) и gene-phenotype associations. Модель была тренирована и протестирована на базе около 1100 пар сходных и 866 пар несходных заболеваний. Генно-ориентированные эмбеддинги показали AUCPR в 0.9012 и AUROC в 0.8764, превосходя существующие алгоритмы. Этот результат достигнут благодаря способности PhenoGnet кластеризовать биологически связанные гены и фенотипы, даже если они не являются прямыми соседями в сети.
#### Значимость
PhenoGnet может быть применен в различных областях, включая раннее диагностирование редких заболеваний, разработку новых лекарств и прогнозирование реакций на них. Он предлагает сценарий, где модель работает с интерпретируемыми векторами, что повышает его привлекательность для практического применения. Этот подход может способствовать улучшению здравоохранения, облегчению научных исследований и ускорению выявления лекарств.
#### Выводы
PhenoGnet доказал свою эффективность в предсказании сходства заболеваний, предлагая новый подход к решению этой задачи. Будущие исследования будут сфокусированы на улучшении модели, расширении набора данных и исследовании его применения в реальных клинических случаях.
Abstract
Understanding disease similarity is critical for advancing diagnostics, drug
discovery, and personalized treatment strategies. We present PhenoGnet, a novel
graph-based contrastive learning framework designed to predict disease
similarity by integrating gene functional interaction networks with the Human
Phenotype Ontology (HPO). PhenoGnet comprises two key components: an intra-view
model that separately encodes gene and phenotype graphs using Graph
Convolutional Networks (GCNs) and Graph Attention Networks (GATs), and a cross
view model implemented as a shared weight multilayer perceptron (MLP) that
aligns gene and phenotype embeddings through contrastive learning. The model is
trained using known gene phenotype associations as positive pairs and randomly
sampled unrelated pairs as negatives. Diseases are represented by the mean
embeddings of their associated genes and/or phenotypes, and pairwise similarity
is computed via cosine similarity. Evaluation on a curated benchmark of 1,100
similar and 866 dissimilar disease pairs demonstrates strong performance, with
gene based embeddings achieving an AUCPR of 0.9012 and AUROC of 0.8764,
outperforming existing state of the art methods. Notably, PhenoGnet captures
latent biological relationships beyond direct overlap, offering a scalable and
interpretable solution for disease similarity prediction. These results
underscore its potential for enabling downstream applications in rare disease
research and precision medicine.
Ссылки и действия
Дополнительные ресурсы: