Enabling Down Syndrome Research through a Knowledge Graph-Driven Analytical Framework
2509.01565v1
q-bio.QM, cs.AI, cs.DB, cs.LG
2025-09-05
Авторы:
Madan Krishnamurthy, Surya Saha, Pierrette Lo, Patricia L. Whetzel, Tursynay Issabekova, Jamed Ferreris Vargas, Jack DiGiovanna, Melissa A Haendel
Резюме на русском
#### Контекст
Дистония Т21 — многообразие генетических расстройств, вызывающее различные клинические патологии, такие как сердечные недостатки, деформации иммунитета, неврологические расстройства и угроза раннего-начального дегенеративного процесса мозга. Несмотря на достижения в генетике, характерная хаотичность данных и их разделение между исследованиями ограничивают возможности для полноценного интегрированного исследования. Национальный институт здоровья (NIH) запустил INCLUDE-инициативу (INvestigation of Co-occurring conditions across the Lifespan to Understand Down syndromE), собравшую гармонизированные данные по участникам. Однако для оптимального использования этих данных необходимо развитие новых, интегрированных подходов.
#### Метод
Мы разработали платформу, основанную на знаниях (knowledge graph), которая преобразует неупорядоченные данные из нескольких исследований INCLUDE в унифицированную семантическую систему. Эта платформа объединяет данные от 9-ти исследований, включающих 7 148 участников, 456 заболеваний, 501 патологических признаков и более 37 000 биоматериалов. Для расширения объема знаний, платформа интегрирует данные из Monarch Initiative, добавляя некорректные гены (4 281 гена) и варианты (7 077 вариантов). Эта семантическая система содержит более 1,6 миллиона семантических связей, которая предоставляет базу для AI-ready анализа, включая графические инкапсуляции и путевые причинные выводы для генерирования гипотез. Ученые могут использовать SPARQL или естественный язык для запросов к графу.
#### Результаты
Мы провели эксперименты, используя данные от 9-ти исследований INCLUDE. Эти данные были преобразованы в значительную семантическую систему, включающую 1,6 миллиона связей. Мы проверили эффективность платформы на задачах, таких как кросс-студийное сравнение, прогнозирование и расследование генотипа-фенотипа отношений. Наши результаты показали, что платформа позволяет выявлять закономерности в данных, которые раньше были недоступны, и обеспечивает новые возможности для исследований по Down синдрому.
#### Значимость
Платформа, основанная на знаниях, превращает статические данные в динамический окружение для обнаружения. Это открывает широкие возможности для расширения интегрированных исследований Down синдрома, включая преобразование данных, поиск новых терапевтических целей и поддержку предсказательного моделирования. Этот подход может быть использован в других генетических расстройствах с многообразием клинических функций, чтобы повысить эффективность исследований.
#### Вы
Abstract
Trisomy 21 results in Down syndrome, a multifaceted genetic disorder with
diverse clinical phenotypes, including heart defects, immune dysfunction,
neurodevelopmental differences, and early-onset dementia risk. Heterogeneity
and fragmented data across studies challenge comprehensive research and
translational discovery. The NIH INCLUDE (INvestigation of Co-occurring
conditions across the Lifespan to Understand Down syndromE) initiative has
assembled harmonized participant-level datasets, yet realizing their potential
requires integrative analytical frameworks. We developed a knowledge
graph-driven platform transforming nine INCLUDE studies, comprising 7,148
participants, 456 conditions, 501 phenotypes, and over 37,000 biospecimens,
into a unified semantic infrastructure. Cross-resource enrichment with Monarch
Initiative data expands coverage to 4,281 genes and 7,077 variants. The
resulting knowledge graph contains over 1.6 million semantic associations,
enabling AI-ready analysis with graph embeddings and path-based reasoning for
hypothesis generation. Researchers can query the graph via SPARQL or natural
language interfaces. This framework converts static data repositories into
dynamic discovery environments, supporting cross-study pattern recognition,
predictive modeling, and systematic exploration of genotype-phenotype
relationships in Down syndrome.