MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian
2508.16390v2
cs.CL, cs.AI, cs.LG
2025-08-26
Авторы:
Ana-Cristina Rogoz, Radu Tudor Ionescu, Alexandra-Valentina Anghel, Ionut-Lucian Antone-Iordache, Simona Coniac, Andreea Iuliana Ionescu
Резюме на русском
## Контекст
Область исследования естественных языковых процессинговых систем (NLP) становится все более важной для развития искусственного интеллекта (AI). Одним из ярких примеров является **задача вопроса-ответа (QA)**, которая является одной из основных задач в этой области. Несмотря на то, что QA в общих текстах уже достигла некоторого уровня успеха, **специальные области, такие как медицина**, представляют дополнительные сложности. В частности, в медицине важность точности и достоверности ответов на высокотехнологичном уровне. Однако, существуют ограничения в доступности качественных данных и ресурсов для обучения AI-систем, особенно в узкоспециализированных языках, таких как румынский. Данная работа предлагает решение этой проблемы, представляя **MedQARo** — первый большой бенчмарк для QA в медицине на румынском языке.
## Метод
**MedQARo** — это **большой датасет**, состоящий из **102 646 QA-пар**, специально созданных для задачи вопроса-ответа в медицинских случаях. Данные были собраны вручную с помощью **семьи опытных онкологов и радиотерапевтов**, которые провели примерно **2100 часов** работы над этой задачей. Основным источником данных были **медицинские случаи с 1011 пациентов**, где каждая вопрос-ответ-пара требует **ключевого слова** или **рассуждений** для правильного ответа. Датасет был разделен на **тренировочную** и **тестовую** часть в соотношении 80/20. Для оценки **текущих технологий** были использованы **четыре лидерских языковых модели (LLMs)**, как в **сценарии zero-shot**, так и в **сценарии файн-тюнинга**.
## Результаты
**MedQARo** позволил провести серьезные эксперименты с четырьмя моделями: **BERT-like**, **T5-like**, **RoBERTa-like** и **ALBERT-like**. Изучение показало, что **файн-тюнинг моделей** (с учетом контекста и языка) дает значительное улучшение по сравнению с **zero-shot**. В частности, **файн-тюнингные модели** показали более высокую точность в ответах, что продемонстрировано **F1-метрикой**, подтверждая, что **контекст и языковые особенности** играют ключевую роль в достижении надежной производительности в медицинской QA. Эти результаты подтверждают, что без должного внимания к специфике языка и домена модели не могут достичь высокой точности.
## Значимость
**MedQARo** имеет **многочисленные приложения** в области клинического QA, помогая в развитии медицинских AI-систем, которые могут помогать врачам в **выборе лечения** и **ответах на вопросы пациентов**. Одним из **основных преимуществ** данной работы является то, что она представляет **первый большой датасет на румы
Abstract
Question answering (QA) is an actively studied topic, being a core natural
language processing (NLP) task that needs to be addressed before achieving
Artificial General Intelligence (AGI). However, the lack of QA datasets in
specific domains and languages hinders the development of robust AI models able
to generalize across various domains and languages. To this end, we introduce
MedQARo, the first large-scale medical QA benchmark in Romanian, alongside a
comprehensive evaluation of state-of-the-art large language models (LLMs). We
construct a high-quality and large-scale dataset comprising 102,646 QA pairs
related to cancer patients. The questions regard medical case summaries of
1,011 patients, requiring either keyword extraction or reasoning to be answered
correctly. MedQARo is the result of a time-consuming manual annotation process
carried out by seven physicians specialized in oncology or radiotherapy, who
spent a total of about 2,100 work hours to generate the QA pairs. We experiment
with four LLMs from distinct families of models on MedQARo. Each model is
employed in two scenarios, namely one based on zero-shot prompting and one
based on supervised fine-tuning. Our results show that fine-tuned models
significantly outperform their zero-shot counterparts, clearly indicating that
pretrained models fail to generalize on MedQARo. Our findings demonstrate the
importance of both domain-specific and language-specific fine-tuning for
reliable clinical QA in Romanian. We publicly release our dataset and code at
https://github.com/ana-rogoz/MedQARo.
Ссылки и действия
Дополнительные ресурсы: