MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian

2508.16390v2 cs.CL, cs.AI, cs.LG 2025-08-26

Авторы:

Ana-Cristina Rogoz, Radu Tudor Ionescu, Alexandra-Valentina Anghel, Ionut-Lucian Antone-Iordache, Simona Coniac, Andreea Iuliana Ionescu

Резюме на русском

## Контекст Область исследования естественных языковых процессинговых систем (NLP) становится все более важной для развития искусственного интеллекта (AI). Одним из ярких примеров является **задача вопроса-ответа (QA)**, которая является одной из основных задач в этой области. Несмотря на то, что QA в общих текстах уже достигла некоторого уровня успеха, **специальные области, такие как медицина**, представляют дополнительные сложности. В частности, в медицине важность точности и достоверности ответов на высокотехнологичном уровне. Однако, существуют ограничения в доступности качественных данных и ресурсов для обучения AI-систем, особенно в узкоспециализированных языках, таких как румынский. Данная работа предлагает решение этой проблемы, представляя **MedQARo** — первый большой бенчмарк для QA в медицине на румынском языке. ## Метод **MedQARo** — это **большой датасет**, состоящий из **102 646 QA-пар**, специально созданных для задачи вопроса-ответа в медицинских случаях. Данные были собраны вручную с помощью **семьи опытных онкологов и радиотерапевтов**, которые провели примерно **2100 часов** работы над этой задачей. Основным источником данных были **медицинские случаи с 1011 пациентов**, где каждая вопрос-ответ-пара требует **ключевого слова** или **рассуждений** для правильного ответа. Датасет был разделен на **тренировочную** и **тестовую** часть в соотношении 80/20. Для оценки **текущих технологий** были использованы **четыре лидерских языковых модели (LLMs)**, как в **сценарии zero-shot**, так и в **сценарии файн-тюнинга**. ## Результаты **MedQARo** позволил провести серьезные эксперименты с четырьмя моделями: **BERT-like**, **T5-like**, **RoBERTa-like** и **ALBERT-like**. Изучение показало, что **файн-тюнинг моделей** (с учетом контекста и языка) дает значительное улучшение по сравнению с **zero-shot**. В частности, **файн-тюнингные модели** показали более высокую точность в ответах, что продемонстрировано **F1-метрикой**, подтверждая, что **контекст и языковые особенности** играют ключевую роль в достижении надежной производительности в медицинской QA. Эти результаты подтверждают, что без должного внимания к специфике языка и домена модели не могут достичь высокой точности. ## Значимость **MedQARo** имеет **многочисленные приложения** в области клинического QA, помогая в развитии медицинских AI-систем, которые могут помогать врачам в **выборе лечения** и **ответах на вопросы пациентов**. Одним из **основных преимуществ** данной работы является то, что она представляет **первый большой датасет на румы

Abstract

Question answering (QA) is an actively studied topic, being a core natural language processing (NLP) task that needs to be addressed before achieving Artificial General Intelligence (AGI). However, the lack of QA datasets in specific domains and languages hinders the development of robust AI models able to generalize across various domains and languages. To this end, we introduce MedQARo, the first large-scale medical QA benchmark in Romanian, alongside a comprehensive evaluation of state-of-the-art large language models (LLMs). We construct a high-quality and large-scale dataset comprising 102,646 QA pairs related to cancer patients. The questions regard medical case summaries of 1,011 patients, requiring either keyword extraction or reasoning to be answered correctly. MedQARo is the result of a time-consuming manual annotation process carried out by seven physicians specialized in oncology or radiotherapy, who spent a total of about 2,100 work hours to generate the QA pairs. We experiment with four LLMs from distinct families of models on MedQARo. Each model is employed in two scenarios, namely one based on zero-shot prompting and one based on supervised fine-tuning. Our results show that fine-tuned models significantly outperform their zero-shot counterparts, clearly indicating that pretrained models fail to generalize on MedQARo. Our findings demonstrate the importance of both domain-specific and language-specific fine-tuning for reliable clinical QA in Romanian. We publicly release our dataset and code at https://github.com/ana-rogoz/MedQARo.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация