A Graph-Based Test-Harness for LLM Evaluation

2508.20810v1 cs.AI, cs.CL 2025-08-30
Авторы:

Jessica Lundin, Guillaume Chabot-Couture

Резюме на русском

## Контекст Исследование фокусируется на разработке динамического, систематического бенчмарка для оценки моделей языковых моделей (LLM), основанного на медицинских руководствах. Проблема заключается в том, что существующие бенчмарки часто не полностью охватывают все возможные варианты взаимосвязей в руководствах, что приводит к потенциальным пробелам в оценке моделей. Мотивация заключается в создании более гибкой, динамической системы, которая может адаптироваться к изменениям в руководствах и обеспечивать более широкий обзор потенциальных недостатков моделей. ## Метод Авторы представили первую версию граф-бенчмарка, основанного на динамической трансформации руководства WHO Integrated Management of Childhood Illness (IMCI) в граф с 200+ узлов (условия, симптомы, лечения, последующие действия, серьезность) и 300+ рёбер. Использование графового пути позволило генерировать вопросы с возрастно-специфическими сценариями и контекстными отвлекательными факторами, чтобы обеспечить клиническую релевантность. Общий размер бенчмарка составляет 3.3+ триллионов возможных комбинаций вопросов, полностью охватывающих все взаимосвязи в руководстве. Этот граф-бенчмарк использовался для генерирования вопросов с целью тестирования моделей на 45-67% точности на клинических задачах, включая симптоматическое распознавание, триаж, диагностику и рекомендации последующих действий. ## Результаты Эксперименты показали, что модели демонстрируют высокую точность в симптоматическом распознавании, но сильно страдают от недостатка в триаже, правильных рекомендациях по лечению и следствию. Бенчмарк позволил выявить конкретные проблемные области в поведении моделей, которые не охвачены общими тестами. Это динамическая методика оценки позволяет генерировать новые вопросы для каждого изменения в руководстве, что обеспечивает контроль над качеством моделей при изменениях в клинических практиках. ## Значимость Разработанный граф-бенчмарк имеет широкие применения в области оценки языковых моделей в медицинских сценариях, включая обучение с подкреплением (supervised fine-tuning), GRPO (Generative Reinforcement Pre-training) и DPO (Dynamic Pre-training). Этот подход обеспечивает высокую гибкость, требуя меньших затрат на аннотацию в сравнении с традиционными методами. Бенчмарк также обеспечивает контроль над качеством моделей в процессе их развития и корректировке в зависимости от изменений в клинических руководствах. ## Выводы Разработанный граф-бенчмарк является новаторским подходом к созданию динамических, систематических методов оценки моделей языковых моделей. Он эф

Abstract

We present a first known prototype of a dynamic, systematic benchmark of medical guidelines for 400+ questions, with 3.3+ trillion possible combinations, covering 100\% of guideline relationships. We transformed the WHO IMCI handbook into a directed graph with 200+ nodes (conditions, symptoms, treatments, follow-ups, severities) and 300+ edges, then used graph traversal to generate questions that incorporated age-specific scenarios and contextual distractors to ensure clinical relevance. Our graph-based approach enables systematic evaluation across clinical tasks (45-67\% accuracy), and we find models excel at symptom recognition but struggle with triaging severity, treatment protocols and follow-up care, demonstrating how customized benchmarks can identify specific capability gaps that general-domain evaluations miss. Beyond evaluation, this dynamic MCQA methodology enhances LLM post-training (supervised finetuning, GRPO, DPO), where correct answers provide high-reward samples without expensive human annotation. The graph-based approach successfully addresses the coverage limitations of manually curated benchmarks. This methodology is a step toward scalable, contamination-resistant solution for creating comprehensive benchmarks that can be dynamically generated, including when the guidelines are updated. Code and datasets are available at https://github.com/jessicalundin/graph_testing_harness

Ссылки и действия