CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA
2509.00806v1
cs.CL, cs.AI, cs.LG
2025-09-05
Авторы:
Reem Abdel-Salam, Mary Adewunmi, Modinat A. Abayomi
Резюме на русском
#### Контекст
В последние годы большой языковые модели (LLMs) доказали свою эффективность в понимании и генерации текста в различных областях, включая биомедицинский домен. Однако повышенное внимание уделяется их подтверждению на задачах многошагового вопроса-ответа (QA), требующих сложного понимания текста и выделения точных ответов. В области биомедицинских вопросов-ответов это становится особенно важной задачей, так как необходимо обеспечить точность и достоверность ответов, которые могут повлиять на клинические решения. Несмотря на прогресс в обучении LLMs, оценка их качества на сложных задачах QA в биомедицине остается недостаточно тщательной.
В данной работе мы применяем LLaMA 3 8B для адресации задачи MedHopQA в рамках BioCreative IX. Эта задача состоит в том, чтобы решать многошаговые вопросы, включающие связи между болезнями, генами и химическими веществами. Наша цель — изучить, насколько LLMs могут обеспечить точные и структурированные ответы на сложные биомедицинские вопросы, а также выявить проблемы в подходе к их оценке.
#### Метод
Мы использовали стратегию супервизированного оптимизатора, нацеленную на то, чтобы улучшить качество ответов модели LLaMA 3 8B. Для обучения и оценки использовались данные из таких источников, как BioASQ, MedQuAD и TREC. Мы разработали три разных стратегии fine-tuning: на комбинированные ответы (короткие и длинные), только на короткие ответы и только на длинные ответы. Это позволило нам исследовать различные направления в понимании языка и выдачи ответов.
Для улучшения точности и структурированности ответов, мы применили двухэтапную модель оценки, которая стремится уменьшить громоздкость ответов и сделать их более соответствующими метрикам BioCreative IX. Эта модель включает в себя два этапа: проверку контекстной аккуратности и выделение точного ответа в соответствии с ожиданиями задачи.
#### Результаты
На этапе обучения, модели LLaMA 3 8B показали высокий уровень понимания биомедицинских концептов, достигнув до 0.8 в accuracy понятий. Однако точность Exact Match (EM) оставалась значительно ниже, особенно на этапе тестирования. Мы обнаружили, что даже когда модель понимает суть вопроса, структурированность и точность ответов остаются проблемными.
Для улучшения работы модели, мы ввели подход с двухэтапной оценкой в процессе интерпретации. Это позволило сократить громоздкость ответов и повысить точность поиска коротких ответов. Тем не менее, мы выявили, что сложности в подготовке строго структурированных ответов для высокоточных метрик остаются, что определяет необходимость будущих исследований в области гибкого контроля вывода
Abstract
Large language models (LLMs) are increasingly evident for accurate question
answering across various domains. However, rigorous evaluation of their
performance on complex question-answering (QA) capabilities is essential before
deployment in real-world biomedical and healthcare applications. This paper
presents our approach to the MedHopQA track of the BioCreative IX shared task,
which focuses on multi-hop biomedical question answering involving diseases,
genes, and chemicals. We adopt a supervised fine-tuning strategy leveraging
LLaMA 3 8B, enhanced with a curated biomedical question-answer dataset compiled
from external sources including BioASQ, MedQuAD, and TREC. Three experimental
setups are explored: fine-tuning on combined short and long answers, short
answers only, and long answers only. While our models demonstrate strong domain
understanding, achieving concept-level accuracy scores of up to 0.8, their
Exact Match (EM) scores remain significantly lower, particularly in the test
phase. We introduce a two-stage inference pipeline for precise short-answer
extraction to mitigate verbosity and improve alignment with evaluation metrics.
Despite partial improvements, challenges persist in generating strictly
formatted outputs. Our findings highlight the gap between semantic
understanding and exact answer evaluation in biomedical LLM applications,
motivating further research in output control and post-processing strategies.
Ссылки и действия
Дополнительные ресурсы: