A Systematic Review on the Generative AI Applications in Human Medical Genomics
2508.20275v1
cs.LG, cs.CL, q-bio.QM
2025-08-29
Авторы:
Anton Changalidis, Yury Barbitoff, Yulia Nasykhova, Andrey Glotov
Резюме на русском
## Контекст
Генетика и геномика человека являются ключевыми областями исследований, стремящимися раскрыть причины, естественные проявления и лечение генетических заболеваний. Однако высоконапряженные данные, характерные за эти дисциплины, часто представляют трудности для традиционных статистических методов и машинного обучения. На сегодняшний день, новаторские глубокие нейронные сети, например трансформерные модели (LLMs), показали свою эффективность в обработке таких данных, особенно в сфере научных и практических задач генетической диагностики. Изучение этой области имеет решающее значение для продвижения научных достижений и улучшения здравоохранения, увеличивая точность диагностики, качество лечения и обучение медицинских работников. Необходимо подробно изучить возможности и ограничения использования LLMs в генетике, чтобы определить их потенциал в решении актуальных проблем данной области.
## Метод
Методология заключается в проведении классического систематического обзора научных исследований. Исследователи выполнили автоматизированный поиск по ключевым словам в базах данных PubMed, bioRxiv, medRxiv и arXiv, ориентируясь на исследования, связанные с применением LLMs в генетике. Особое внимание было уделено моделям, опубликованным в последние 5 лет, чтобы выделить современные тенденции. Были исключены статьи, относящиеся к устаревшим или неактуальным моделям. В результате было собрано и проанализировано 172 исследований, охватывающих применение LLMs в таких областях, как идентификация и анализ генетических вариантов, занятия по генетике и консультации, а также в области медицинской иммунологии.
## Результаты
Основные результаты экспериментов показали, что трансформерные модели LLMs сильно повышают эффективность в таких задачах, как генетическая диагностика, в том числе для определения генетических вариантов и их интерпретации, а также в области медицинского импульса с помощью трансформеров-видения. Они также демонстрируют выдающиеся результаты в обнаружении и оценке рисков наследственных заболеваний. Однако, несмотря на эти достижения, существуют значительные вызовы, такие как объединение многомодальных данных (генетических последовательностей, клинических записей и импульсов) в единое и клинически применимое решение. Наблюдается недостаток в обучении моделей на многочисленных и разнородных данных, что ограничивает их применение в реальных клинических условиях.
## Значимость
Полученные результаты имеют высокую значимость для генетических исследований и клинического применения. Модели LLMs находят применение в различных сфера
Abstract
Although traditional statistical techniques and machine learning methods have
contributed significantly to genetics and, in particular, inherited disease
diagnosis, they often struggle with complex, high-dimensional data, a challenge
now addressed by state-of-the-art deep learning models. Large language models
(LLMs), based on transformer architectures, have excelled in tasks requiring
contextual comprehension of unstructured medical data. This systematic review
examines the role of LLMs in the genetic research and diagnostics of both rare
and common diseases. Automated keyword-based search in PubMed, bioRxiv,
medRxiv, and arXiv was conducted, targeting studies on LLM applications in
diagnostics and education within genetics and removing irrelevant or outdated
models. A total of 172 studies were analyzed, highlighting applications in
genomic variant identification, annotation, and interpretation, as well as
medical imaging advancements through vision transformers. Key findings indicate
that while transformer-based models significantly advance disease and risk
stratification, variant interpretation, medical imaging analysis, and report
generation, major challenges persist in integrating multimodal data (genomic
sequences, imaging, and clinical records) into unified and clinically robust
pipelines, facing limitations in generalizability and practical implementation
in clinical settings. This review provides a comprehensive classification and
assessment of the current capabilities and limitations of LLMs in transforming
hereditary disease diagnostics and supporting genetic education, serving as a
guide to navigate this rapidly evolving field.
Ссылки и действия
Дополнительные ресурсы: