HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG 2025-08-13
Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

Резюме на русском

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Abstract

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches supports both open-ended and multiple-choice question formats and uniquely includes the full reasoning path for each Q&A. Its structured design enables robust evaluation of LLMs' multi-step inference capabilities, including their performance in structured Retrieval-Augmented Generation (RAG) contexts. HealthBranches establishes a foundation for the development of more trustworthy, interpretable, and clinically reliable LLMs in high-stakes domains while also serving as a valuable resource for educational purposes.

Ссылки и действия