A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data

2508.12617v1 stat.ME, cs.AI, cs.LG 2025-08-20

Авторы:

Ming Li, Zihuai He, Min Zhang, Xiaowei Zhan, Changshuai Wei, Robert C Elston, Qing Lu

Резюме на русском

## Контекст В последние годы высокопроизводительные технологии последовательного секвенирования (high-throughput sequencing) стали доступными для изучения влияния широкого спектра последовательных вариаций на развитие сложных гуманных заболеваний. Современные аналитические методы для работы с высокомерной последовательной данной остаются трудными, но необходимы для раскрытия новых генетических вариантов, включая редкие, которые могут привести к заболеваниям. Одним из основных вызовов является статистический анализ высокомерных данных, в том числе генетических, для обнаружения таких вариантов. ## Метод Мы предлагаем новую модель генетического случайного поля (GGRF) для анализа генетических суспертиров в последовательных данных. Метод основывается на фреймворке статистики регрессии (generalized estimating equations) и позволяет анализировать различные типы последовательных вариантов, включая редкие. Метод не требует предварительного установления порогов для редких вариантов и может обрабатывать различные типы характеров заболеваний (например, квантитативные и бинарные показатели). Основное преимущество GGRF заключается в его гибкости и точности при работе с редкими вариантами, которые могут иметь разные эффекты на заболевание. Также GGRF имеет хорошую асимптотическую свойству, что делает его удобным для использования даже на небольших объемах данных. ## Результаты Мы проводили симуляционные испытания для сравнения GGRF с одной из самых популярных моделей — SKAT (Sequence Kernel Association Test). Результаты показали, что GGRF обеспечивает значительно более высокую силу обнаружения вариантов, особенно когда редкие варианты играют ключевую роль в генетической этиологии заболевания. Мы также применили GGRF к реальным данным из исследования Dallas Heart Study. Эти данные позволили нам выявить ассоциации двух генов (ANGPTL3 и ANGPTL4) с растворимыми триглицеридами в крови, что подтвердило эффективность метода в практических применениях. ## Значимость Метод GGRF может быть применен в различных областях генетического исследования, включая работу с редкими генетическими вариантами, которые могут привести к развитию гуманных заболеваний. Он имеет значительные преимущества в том, что не требует предварительной настройки порогов для редких вариантов и может обрабатывать разнообразные типы данных. Этот подход может способствовать раскрытию новых генетических механизмов, способствующих развитию заболеваний, и помочь в разработке новых терапевтических методов. ## Выводы Мы предложили GGRF — новую модель для анализа генетических вариантов в последовательных данных, которая показала свою эффективность в сравнении с одной из лучших

Abstract

With the advance of high-throughput sequencing technologies, it has become feasible to investigate the influence of the entire spectrum of sequencing variations on complex human diseases. Although association studies utilizing the new sequencing technologies hold great promise to unravel novel genetic variants, especially rare genetic variants that contribute to human diseases, the statistical analysis of high-dimensional sequencing data remains a challenge. Advanced analytical methods are in great need to facilitate high-dimensional sequencing data analyses. In this article, we propose a generalized genetic random field (GGRF) method for association analyses of sequencing data. Like other similarity-based methods (e.g., SIMreg and SKAT), the new method has the advantages of avoiding the need to specify thresholds for rare variants and allowing for testing multiple variants acting in different directions and magnitude of effects. The method is built on the generalized estimating equation framework and thus accommodates a variety of disease phenotypes (e.g., quantitative and binary phenotypes). Moreover, it has a nice asymptotic property, and can be applied to small-scale sequencing data without need for small-sample adjustment. Through simulations, we demonstrate that the proposed GGRF attains an improved or comparable power over a commonly used method, SKAT, under various disease scenarios, especially when rare variants play a significant role in disease etiology. We further illustrate GGRF with an application to a real dataset from the Dallas Heart Study. By using GGRF, we were able to detect the association of two candidate genes, ANGPTL3 and ANGPTL4, with serum triglyceride.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Model-Free Assessment of Simulator Fidelity via Quantile Curves

A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling

Навигация