PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark

2508.16439v2 cs.CY, cs.AI, cs.CL, cs.GR, cs.MM 2025-08-26
Авторы:

Adil Bahaj, Mohamed Chetouani, Mounir Ghogho

Резюме на русском

#### Контекст В последние годы большое внимание уделяется развитию здравоохранения через искусственный интеллект (ИИ). Одной из ключевых областей применения ИИ является медицина, где ИИ применяется для диагностики, решения медицинских вопросов и повышения справочного обслуживания. Однако существуют серьезные проблемы, особенно в отношении моделей большого языкового моделирования (LLM) и визуального моделирования (VLMs). Эти модели часто демонстрируют систематическую предрасположенность, в том числе возрастную предрасположенность, что снижает их достоверность и справедливость. Это особенно важно в области педиатрии, где здоровье детей часто остается забытым или менее изученным, несмотря на высокий бремен детских заболеваний. Для решения этой проблемы был представлен новый бенчмарк PediatricsMQA, предлагающий новые возможности для тестирования ИИ в области педиатрии. #### Метод Представленный бенчмарк PediatricsMQA является многомерным и включает 3,417 текстовых вопросов с множественным выбором (MCQ), покрывающих 131 педиатрических тем в разных стадиях развития, от предпородного развития до подросткового возраста. Бенчмарк также включает 2,067 визуальных вопросов, использующих 634 педиатрических изображений в различных модальностях и охватывающих 256 анатомических регионов. Методология создания бенчмарка включала в себя сочетание ручных и автоматизированных подходов. Использовались данные из периодической педиатрической литературы, валидированные банки вопросов, существующие бенчмарки и другие ресурсы. Это позволило создать богатый набор данных, который покрывает широкий спектр педиатрических вопросов и изображений. Этот подход обеспечивает высокую разнообразность и глубину вопросов, чтобы обеспечить точную и эффективную оценку моделей. #### Результаты Были проведены эксперименты с использованием современных моделей ИИ, включая LLM и VLMs. Результаты показали, что производительность этих моделей существенно снижается при работе с вопросами, касающимися моложества. Это особенно заметно в младших возрастных группах, где модели демонстрируют на порядок выше старших групп. Эти результаты подтверждают существующие проблемы с возрастной предрасположенностью в AI-моделях и подчеркивают необходимость развития адаптивных методов, которые могут учитывать различия в возрасте. Бенчмарк также показал существенные различия в производительности в зависимости от типа вопроса (текст vs. визуальное изображение), что дает дополнительные возможности для расширения ИИ в пе

Abstract

Large language models (LLMs) and vision-augmented LLMs (VLMs) have significantly advanced medical informatics, diagnostics, and decision support. However, these models exhibit systematic biases, particularly age bias, compromising their reliability and equity. This is evident in their poorer performance on pediatric-focused text and visual question-answering tasks. This bias reflects a broader imbalance in medical research, where pediatric studies receive less funding and representation despite the significant disease burden in children. To address these issues, a new comprehensive multi-modal pediatric question-answering benchmark, PediatricsMQA, has been introduced. It consists of 3,417 text-based multiple-choice questions (MCQs) covering 131 pediatric topics across seven developmental stages (prenatal to adolescent) and 2,067 vision-based MCQs using 634 pediatric images from 67 imaging modalities and 256 anatomical regions. The dataset was developed using a hybrid manual-automatic pipeline, incorporating peer-reviewed pediatric literature, validated question banks, existing benchmarks, and existing QA resources. Evaluating state-of-the-art open models, we find dramatic performance drops in younger cohorts, highlighting the need for age-aware methods to ensure equitable AI support in pediatric care.

Ссылки и действия