A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data
2508.12617v1
stat.ME, cs.AI, cs.LG
2025-08-20
Авторы:
Ming Li, Zihuai He, Min Zhang, Xiaowei Zhan, Changshuai Wei, Robert C Elston, Qing Lu
Резюме на русском
## Контекст
В последние годы высокопроизводительные технологии последовательного секвенирования (high-throughput sequencing) стали доступными для изучения влияния широкого спектра последовательных вариаций на развитие сложных гуманных заболеваний. Современные аналитические методы для работы с высокомерной последовательной данной остаются трудными, но необходимы для раскрытия новых генетических вариантов, включая редкие, которые могут привести к заболеваниям. Одним из основных вызовов является статистический анализ высокомерных данных, в том числе генетических, для обнаружения таких вариантов.
## Метод
Мы предлагаем новую модель генетического случайного поля (GGRF) для анализа генетических суспертиров в последовательных данных. Метод основывается на фреймворке статистики регрессии (generalized estimating equations) и позволяет анализировать различные типы последовательных вариантов, включая редкие. Метод не требует предварительного установления порогов для редких вариантов и может обрабатывать различные типы характеров заболеваний (например, квантитативные и бинарные показатели). Основное преимущество GGRF заключается в его гибкости и точности при работе с редкими вариантами, которые могут иметь разные эффекты на заболевание. Также GGRF имеет хорошую асимптотическую свойству, что делает его удобным для использования даже на небольших объемах данных.
## Результаты
Мы проводили симуляционные испытания для сравнения GGRF с одной из самых популярных моделей — SKAT (Sequence Kernel Association Test). Результаты показали, что GGRF обеспечивает значительно более высокую силу обнаружения вариантов, особенно когда редкие варианты играют ключевую роль в генетической этиологии заболевания. Мы также применили GGRF к реальным данным из исследования Dallas Heart Study. Эти данные позволили нам выявить ассоциации двух генов (ANGPTL3 и ANGPTL4) с растворимыми триглицеридами в крови, что подтвердило эффективность метода в практических применениях.
## Значимость
Метод GGRF может быть применен в различных областях генетического исследования, включая работу с редкими генетическими вариантами, которые могут привести к развитию гуманных заболеваний. Он имеет значительные преимущества в том, что не требует предварительной настройки порогов для редких вариантов и может обрабатывать разнообразные типы данных. Этот подход может способствовать раскрытию новых генетических механизмов, способствующих развитию заболеваний, и помочь в разработке новых терапевтических методов.
## Выводы
Мы предложили GGRF — новую модель для анализа генетических вариантов в последовательных данных, которая показала свою эффективность в сравнении с одной из лучших
Abstract
With the advance of high-throughput sequencing technologies, it has become
feasible to investigate the influence of the entire spectrum of sequencing
variations on complex human diseases. Although association studies utilizing
the new sequencing technologies hold great promise to unravel novel genetic
variants, especially rare genetic variants that contribute to human diseases,
the statistical analysis of high-dimensional sequencing data remains a
challenge. Advanced analytical methods are in great need to facilitate
high-dimensional sequencing data analyses. In this article, we propose a
generalized genetic random field (GGRF) method for association analyses of
sequencing data. Like other similarity-based methods (e.g., SIMreg and SKAT),
the new method has the advantages of avoiding the need to specify thresholds
for rare variants and allowing for testing multiple variants acting in
different directions and magnitude of effects. The method is built on the
generalized estimating equation framework and thus accommodates a variety of
disease phenotypes (e.g., quantitative and binary phenotypes). Moreover, it has
a nice asymptotic property, and can be applied to small-scale sequencing data
without need for small-sample adjustment. Through simulations, we demonstrate
that the proposed GGRF attains an improved or comparable power over a commonly
used method, SKAT, under various disease scenarios, especially when rare
variants play a significant role in disease etiology. We further illustrate
GGRF with an application to a real dataset from the Dallas Heart Study. By
using GGRF, we were able to detect the association of two candidate genes,
ANGPTL3 and ANGPTL4, with serum triglyceride.
Ссылки и действия
Дополнительные ресурсы: