Functional Analysis of Variance for Association Studies
2508.11069v1
stat.AP, cs.LG, stat.ME
2025-08-19
Авторы:
Olga A. Vsevolozhskaya, Dmitri V. Zaykin, Mark C. Greenwood, Changshuai Wei, Qing Lu
Резюме на русском
## Контекст
Изучение функциональных ассоциаций генов с квалитетными характеристиками является ключевым вопросом в генетике и геномике. Хотя существуют методы, позволяющие обнаруживать ассоциации с обычными геномами, трудности возникают при детектировании молекулярных факторов, связанных с болезнями, уровень риска которых проявляется в результате взаимодействия множества генов. В статье предлагается расширенный подход, который позволяет проанализировать эти взаимоотношения и улучшить понимание генетического уровня патологии.
## Метод
Метод FANOVA (Functional Analysis of Variance) для тестирования ассоциации версий генов с квалитетными характеристиками предполагает рассмотрение взаимодействия генов в геномном регионе с помощью функциональной модели. Метод основывается на анализе разности квадратов, использующей генетическое разнообразие, позволяя учитывать как рископовышающие, так и защищающие варианты. Отличительными чертами являются: (1) возможность анализа как обычных, так и редких генов; (2) учет линкед дисбаланса; и (3) возможность исследования различных разрессей вариантов в геномных регионах.
## Результаты
В экспериментах проводился сравнительный анализ FANOVA с двумя популярными методами — SKAT (Sequence Kernel Association Test) и FLM (Functional Linear Models). Использовавшиеся данные включали симуляционные сценарии и реальные из серии Dallas Heart Study. Результаты показали, что FANOVA более эффективен, особенно при небольших размерах выборки или для генов с низким или средним эффектом. Например, FANOVA удалось обнаружить ассоциации с генами ANGPTL 4 и ANGPTL 3 в связи с ожирением, успешно детектируя оба, в то время как SKAT и FLM обнаружили только один.
## Значимость
Предложенный подход может быть применен в различных областях, включая патогенез болезней, выявление рисков для селекции и терапевтические исследования. Он обладает высокой степенью переносимости и эффективности, особенно при работе с малыми выборками или генетическими вариантами с низкими эффектами. Это делает FANOVA привлекательным для широкого круга исследователей, желающих улучшить расширенный поиск генов, связанных с различными заболеваниями.
## Выводы
Итоги исследований подтверждают высокую эффективность FANOVA в анализе генов, особенно в сравнении с другими методами. В дальнейшем будет необходимо расширить предложенный подход, внедрив дополнительные функции, позволяющие учитывать более сложные генетические интеррелейшены и улучшить точность диагностики генетических заболеваний.
Abstract
While progress has been made in identifying common genetic variants
associated with human diseases, for most of common complex diseases, the
identified genetic variants only account for a small proportion of
heritability. Challenges remain in finding additional unknown genetic variants
predisposing to complex diseases. With the advance in next-generation
sequencing technologies, sequencing studies have become commonplace in genetic
research. The ongoing exome-sequencing and whole-genome-sequencing studies
generate a massive amount of sequencing variants and allow researchers to
comprehensively investigate their role in human diseases. The discovery of new
disease-associated variants can be enhanced by utilizing powerful and
computationally efficient statistical methods. In this paper, we propose a
functional analysis of variance (FANOVA) method for testing an association of
sequence variants in a genomic region with a qualitative trait. The FANOVA has
a number of advantages: (1) it tests for a joint effect of gene variants,
including both common and rare; (2) it fully utilizes linkage disequilibrium
and genetic position information; and (3) allows for either protective or
risk-increasing causal variants. Through simulations, we show that FANOVA
outperform two popularly used methods - SKAT and a previously proposed method
based on functional linear models (FLM), - especially if a sample size of a
study is small and/or sequence variants have low to moderate effects. We
conduct an empirical study by applying three methods (FANOVA, SKAT and FLM) to
sequencing data from Dallas Heart Study. While SKAT and FLM respectively
detected ANGPTL 4 and ANGPTL 3 associated with obesity, FANOVA was able to
identify both genes associated with obesity.