📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PediatricsMQA: a Multi-modal Pediatrics Question Answering Benchmark

2025-08-26

Авторы:

Adil Bahaj, Mohamed Chetouani, Mounir Ghogho

#### Контекст В последние годы большое внимание уделяется развитию здравоохранения через искусственный интеллект (ИИ). Одной из ключевых областей применения ИИ является медицина, где ИИ применяется для диагностики, решения медицинских вопросов и повышения справочного обслуживания. Однако существуют серьезные проблемы, особенно в отношении моделей большого языкового моделирования (LLM) и визуального моделирования (VLMs). Эти модели часто демонстрируют систематическую предрасположенность, в том числе возрастную предрасположенность, что снижает их достоверность и справедливость. Это особенно важно в области педиатрии, где здоровье детей часто остается забытым или менее изученным, несмотря на высокий бремен детских заболеваний. Для решения этой проблемы был представлен новый бенчмарк PediatricsMQA, предлагающий новые возможности для тестирования ИИ в области педиатрии. #### Метод Представленный бенчмарк PediatricsMQA является многомерным и включает 3,417 текстовых вопросов с множественным выбором (MCQ), покрывающих 131 педиатрических тем в разных стадиях развития, от предпородного развития до подросткового возраста. Бенчмарк также включает 2,067 визуальных вопросов, использующих 634 педиатрических изображений в различных модальностях и охватывающих 256 анатомических регионов. Методология создания бенчмарка включала в себя сочетание ручных и автоматизированных подходов. Использовались данные из периодической педиатрической литературы, валидированные банки вопросов, существующие бенчмарки и другие ресурсы. Это позволило создать богатый набор данных, который покрывает широкий спектр педиатрических вопросов и изображений. Этот подход обеспечивает высокую разнообразность и глубину вопросов, чтобы обеспечить точную и эффективную оценку моделей. #### Результаты Были проведены эксперименты с использованием современных моделей ИИ, включая LLM и VLMs. Результаты показали, что производительность этих моделей существенно снижается при работе с вопросами, касающимися моложества. Это особенно заметно в младших возрастных группах, где модели демонстрируют на порядок выше старших групп. Эти результаты подтверждают существующие проблемы с возрастной предрасположенностью в AI-моделях и подчеркивают необходимость развития адаптивных методов, которые могут учитывать различия в возрасте. Бенчмарк также показал существенные различия в производительности в зависимости от типа вопроса (текст vs. визуальное изображение), что дает дополнительные возможности для расширения ИИ в пе

Annotation:

Large language models (LLMs) and vision-augmented LLMs (VLMs) have significantly advanced medical informatics, diagnostics, and decision support. However, these models exhibit systematic biases, particularly age bias, compromising their reliability and equity. This is evident in their poorer performance on pediatric-focused text and visual question-answering tasks. This bias reflects a broader imbalance in medical research, where pediatric studies receive less funding and representation despite ...

ID: 2508.16439v2 cs.CY, cs.AI, cs.CL, cs.GR, cs.MM

arXiv PDF