#### Контекст
В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина.
#### Метод
HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG).
#### Результаты
В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте.
#### Значимость
HealthBranches представляет собой революционный подход к созданию датасетов для