Enabling Down Syndrome Research through a Knowledge Graph-Driven Analytical Framework

2509.01565v1 q-bio.QM, cs.AI, cs.DB, cs.LG 2025-09-05
Авторы:

Madan Krishnamurthy, Surya Saha, Pierrette Lo, Patricia L. Whetzel, Tursynay Issabekova, Jamed Ferreris Vargas, Jack DiGiovanna, Melissa A Haendel

Резюме на русском

#### Контекст Дистония Т21 — многообразие генетических расстройств, вызывающее различные клинические патологии, такие как сердечные недостатки, деформации иммунитета, неврологические расстройства и угроза раннего-начального дегенеративного процесса мозга. Несмотря на достижения в генетике, характерная хаотичность данных и их разделение между исследованиями ограничивают возможности для полноценного интегрированного исследования. Национальный институт здоровья (NIH) запустил INCLUDE-инициативу (INvestigation of Co-occurring conditions across the Lifespan to Understand Down syndromE), собравшую гармонизированные данные по участникам. Однако для оптимального использования этих данных необходимо развитие новых, интегрированных подходов. #### Метод Мы разработали платформу, основанную на знаниях (knowledge graph), которая преобразует неупорядоченные данные из нескольких исследований INCLUDE в унифицированную семантическую систему. Эта платформа объединяет данные от 9-ти исследований, включающих 7 148 участников, 456 заболеваний, 501 патологических признаков и более 37 000 биоматериалов. Для расширения объема знаний, платформа интегрирует данные из Monarch Initiative, добавляя некорректные гены (4 281 гена) и варианты (7 077 вариантов). Эта семантическая система содержит более 1,6 миллиона семантических связей, которая предоставляет базу для AI-ready анализа, включая графические инкапсуляции и путевые причинные выводы для генерирования гипотез. Ученые могут использовать SPARQL или естественный язык для запросов к графу. #### Результаты Мы провели эксперименты, используя данные от 9-ти исследований INCLUDE. Эти данные были преобразованы в значительную семантическую систему, включающую 1,6 миллиона связей. Мы проверили эффективность платформы на задачах, таких как кросс-студийное сравнение, прогнозирование и расследование генотипа-фенотипа отношений. Наши результаты показали, что платформа позволяет выявлять закономерности в данных, которые раньше были недоступны, и обеспечивает новые возможности для исследований по Down синдрому. #### Значимость Платформа, основанная на знаниях, превращает статические данные в динамический окружение для обнаружения. Это открывает широкие возможности для расширения интегрированных исследований Down синдрома, включая преобразование данных, поиск новых терапевтических целей и поддержку предсказательного моделирования. Этот подход может быть использован в других генетических расстройствах с многообразием клинических функций, чтобы повысить эффективность исследований. #### Вы

Abstract

Trisomy 21 results in Down syndrome, a multifaceted genetic disorder with diverse clinical phenotypes, including heart defects, immune dysfunction, neurodevelopmental differences, and early-onset dementia risk. Heterogeneity and fragmented data across studies challenge comprehensive research and translational discovery. The NIH INCLUDE (INvestigation of Co-occurring conditions across the Lifespan to Understand Down syndromE) initiative has assembled harmonized participant-level datasets, yet realizing their potential requires integrative analytical frameworks. We developed a knowledge graph-driven platform transforming nine INCLUDE studies, comprising 7,148 participants, 456 conditions, 501 phenotypes, and over 37,000 biospecimens, into a unified semantic infrastructure. Cross-resource enrichment with Monarch Initiative data expands coverage to 4,281 genes and 7,077 variants. The resulting knowledge graph contains over 1.6 million semantic associations, enabling AI-ready analysis with graph embeddings and path-based reasoning for hypothesis generation. Researchers can query the graph via SPARQL or natural language interfaces. This framework converts static data repositories into dynamic discovery environments, supporting cross-study pattern recognition, predictive modeling, and systematic exploration of genotype-phenotype relationships in Down syndrome.

Ссылки и действия