📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Ming Li, Ruo-Sin Peng, Changshuai Wei, Qing Lu
## Контекст
В последние годы резко вырос роль генетических факторов в исследовании сложных траекторий развития болезней. Одним из основных заданий генетических исследований является идентификация генов, которые взаимодействуют друг с другом и с внешними факторами окружающей среды, воздействуя на развитие различных характеристик. Традиционные методы, ориентированные на идентификацию одной или нескольких синергических пар генов, были ограничены в своих возможностях, несмотря на развитие информационных технологий. Особенно сложной является задача рассмотрения множественных генов и внешних факторов в контексте их взаимодействия. Ранние работы по идентификации гено-генных и гено-окружающих взаимодействий сталкивались с проблемами, связанными с высокой динамичностью генетических данных, вычислительной сложностью и ограниченностью мощности компьютерных систем. В этой статье предлагается новый подход, основанный на U-статистике, для улучшения эффективности методов идентификации взаимодействий.
## Метод
Предложенный подход, названный Forest U-Test, основывается на использовании U-статистики, которая предназначена для оценки взаимодействий генов и внешних факторов в ходе идентификации кластеров и ассоциаций. Метод использует случайные лесы (random forests) для распределения данных и использования информации о взаимодействиях в каждом кластере. В разных этапах взаимодействия используется функция U-статистики, которая оценивает значимость каждого изменения в кластере. Это позволяет сократить количество вычислений и избежать проблемы экспоненциального роста количества возможностей, которая обычно связана с генетическими исследованиями. Данный подход предлагается для использования в случаях, когда имеется большое количество данных, включая не только генетические, но и внешние факторы.
## Результаты
Для проверки эффективности метода были проведены симуляционные эксперименты и исследования на реальных данных. В результате проведенных экспериментов была продемонстрирована значительная преуспетьность Forest U-Test по сравнению с другими существующими методами. Например, в симуляционных исследованиях, проведенных на генетических данных, метод показал значительно более высокую точность в идентификации взаимодействий, чем уже существующие методы. Также, в приложении к исследованию зависимости от каннабиса (CD) на основе данных из трех независимых исследований из Study of Addiction: Genetics and Environment, была выявлена значимая комбинированная ассоциация с p-value меньше 0.001. Эти результаты были подтверждены в двух других независи
Annotation:
Variations in complex traits are influenced by multiple genetic variants,
environmental risk factors, and their interactions. Though substantial progress
has been made in identifying single genetic variants associated with complex
traits, detecting the gene-gene and gene-environment interactions remains a
great challenge. When a large number of genetic variants and environmental risk
factors are involved, searching for interactions is limited to pair-wise
interactions due to the exponentially in...