BALI: Enhancing Biomedical Language Representations through Knowledge Graph and Language Model Alignment
2509.07588v1
cs.CL, cs.AI, I.2.7; H.3.3; J.3
2025-09-11
Авторы:
Andrey Sakhovskiy, Elena Tutubalina
Резюме на русском
## Контекст
Биомедицинские тексты характеризуются сложностью и специфичностью, порождая вызовы для понимания и извлечения полезной информации. Особенно сложной является интеграция данных из биомедицинских знаний графов (КГ) с моделями языка (LLM), требуя улучшенных методов для повышения точности и полноты представлений. Традиционные подходы часто ограничены их невозможностью адекватно различать и ассоциировать сложные биомедицинские понятия. Мотивировано тем, что понимание текста может быть значительно повышено путем внедрения внешних знаний из КГ, авторы предлагают BALI, метод, который способен синхронно учитывать языковые модели и КГ для более точного и глубокого представления биомедицинской литературы.
## Метод
BALI предлагает совместное обучение языковой модели (LM) и КГ с использованием двух ключевых компонентов: графического кодировщика и механизма выравнивания представлений. Метод применяет Систему Медицинской Лингвистики (UMLS) для связывания биомедицинских понятий в тексте с КГ и создания локальных подграфов в качестве положительных образцов для обучения. Модель работает путем связывания биомедицинских понятий в тексте с графом, а затем используя эти связи для создания новых представлений, которые более точно отражают контекстную информацию. Это двойное обучение позволяет BALI улучшить качество представления без потери общей гибкости модели.
## Результаты
Авторы провели эксперименты с BALI, использовав широкий набор задач, включая семантическое понимание текста, классификацию и вывод выводов. Использовались новые модели, такие как PubMedBERT и BioLinkBERT, которые были лучше обучены с помощью BALI. Результаты показали, что новый подход значительно повышает точность задач понимания языка и улучшает представление сущностей. Даже при минимальном обучении на небольшом наборе данных из PubMed, BALI показал способность повысить качество представлений сущностей и повысить точность моделей.
## Значимость
BALI может быть применен в различных областях, включая выявление отношений в биомедицинских текстах, анализ литературы и поиск информации. Он предлагает преимущества в том числе улучшенной точности, повышенной гибкости и полноте представлений. Это может привести к новым возможностям в области биоинформатики, помогая специалистам быстрее и эффективнее выполнять задачи связанные с извлечением и анализом данных.
## Выводы
BALI представляет собой перспективный подход к улучшению представлений биомедицинского языка, используя КГ и языковые модели. Он по
Abstract
In recent years, there has been substantial progress in using pretrained
Language Models (LMs) on a range of tasks aimed at improving the understanding
of biomedical texts. Nonetheless, existing biomedical LLMs show limited
comprehension of complex, domain-specific concept structures and the factual
information encoded in biomedical Knowledge Graphs (KGs). In this work, we
propose BALI (Biomedical Knowledge Graph and Language Model Alignment), a novel
joint LM and KG pre-training method that augments an LM with external knowledge
by the simultaneous learning of a dedicated KG encoder and aligning the
representations of both the LM and the graph. For a given textual sequence, we
link biomedical concept mentions to the Unified Medical Language System (UMLS)
KG and utilize local KG subgraphs as cross-modal positive samples for these
mentions. Our empirical findings indicate that implementing our method on
several leading biomedical LMs, such as PubMedBERT and BioLinkBERT, improves
their performance on a range of language understanding tasks and the quality of
entity representations, even with minimal pre-training on a small alignment
dataset sourced from PubMed scientific abstracts.