PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation

2509.11517v1 cs.CL, cs.LG 2025-09-17

Авторы:

Rodrigo M. Carrillo-Larco, Jesus Lovón Melgarejo, Manuel Castillo-Cara, Gusseppe Bravo-Rocca

Резюме на русском

#### Контекст Медицинские большие языковые модели (LLM) доказали высокую точность в ответе на вопросы из медицинских экзаменов. Однако, неясно, насколько эти модели могут передавать свои навыки на вопросы, написанные на испанском языке и относящиеся к медицине в Латинской Америке. Это особенно актуально, поскольку возникает потребность в LLM-приложениях в сфере медицины в регионе. Целью данного исследования является построение набора данных вопросов из медицинских экзаменов, пройденных в Перу, и оценка того, насколько эффективно модели переобучаются на этот набор данных. #### Метод Мы создали набор данных PeruMedQA, содержащий 8380 многовариантных вопросов из 12 медицинских областей (2018–2025). Набор включает вопросы из нормативных экзаменов для специалистов в Перу. Мы использовали 8 моделей языковых моделей, включая medgemma-4b-it и medgemma-27b-text-it, а также разработали задачеподготовленные команды для подхода к ответам. Для оптимизации medgemma-4b-it использовались параметры эффективного уточнения (PEFT) и низкоранговая адаптация (LoRA). Набор вопросов 2025 был отложенным тестовым набором. #### Результаты medgemma-27b-text-it показал высокую точность ответов, превышая 90% в некоторых случаях. Модели с менее чем 10 миллиардами параметров демонстрировали точность, не превосходящую 60%, и в некоторых случаях — ниже 50%. Уточненная версия medgemma-4b-it показала высокую точность, опередив модели с теми же параметрами и даже сравнением с моделью на 70 миллиардов параметров в некоторых экзаменах. #### Значимость Результаты показывают, что medgemma-27b-text-it и уточненная версия medgemma-4b-it являются эффективными для приложений в области медицины, требующих знаний на испанском языке и имеющих эпидемиологический профиль, аналогичный Перу. Эти модели могут быть полезны для развития Латинской Америки в сфере AI-приложений в медицине. #### Выводы Построенный набор данных PeruMedQA и эффективные модели языковых моделей демонстрируют потенциал для улучшения приложений AI в медицине на латиноамериканском рынке. Для последующих исследований следует изучить возможность дополнительного уточнения моделей и расширения набора данных для улучшения точности и объема.

Abstract

BACKGROUND: Medical large language models (LLMS) have demonstrated remarkable performance in answering medical examinations. However, the extent to which this high performance is transferable to medical questions in Spanish and from a Latin American country remains unexplored. This knowledge is crucial as LLM-based medical applications gain traction in Latin America. AIMS: to build a dataset of questions from medical examinations taken by Peruvian physicians pursuing specialty training; to fine-tune a LLM on this dataset; to evaluate and compare the performance in terms of accuracy between vanilla LLMs and the fine-tuned LLM. METHODS: We curated PeruMedQA, a multiple-choice question-answering (MCQA) datasets containing 8,380 questions spanning 12 medical domains (2018-2025). We selected eight medical LLMs including medgemma-4b-it and medgemma-27b-text-it, and developed zero-shot task-specific prompts to answer the questions appropriately. We employed parameter-efficient fine tuning (PEFT)and low-rant adaptation (LoRA) to fine-tune medgemma-4b-it utilizing all questions except those from 2025 (test set). RESULTS: medgemma-27b-text-it outperformed all other models, achieving a proportion of correct answers exceeding 90% in several instances. LLMs with <10 billion parameters exhibited <60% of correct answers, while some exams yielded results <50%. The fine-tuned version of medgemma-4b-it emerged victorious agains all LLMs with <10 billion parameters and rivaled a LLM with 70 billion parameters across various examinations. CONCLUSIONS: For medical AI application and research that require knowledge bases from Spanish-speaking countries and those exhibiting similar epidemiological profiles to Peru's, interested parties should utilize medgemma-27b-text-it or a fine-tuned version of medgemma-4b-it.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PeruMedQA: Benchmarking Large Language Models (LLMs) on Peruvian Medical Exams -- Dataset Construction and Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация