A Graph-Based Test-Harness for LLM Evaluation
2508.20810v1
cs.AI, cs.CL
2025-08-30
Авторы:
Jessica Lundin, Guillaume Chabot-Couture
Резюме на русском
## Контекст
Исследование фокусируется на разработке динамического, систематического бенчмарка для оценки моделей языковых моделей (LLM), основанного на медицинских руководствах. Проблема заключается в том, что существующие бенчмарки часто не полностью охватывают все возможные варианты взаимосвязей в руководствах, что приводит к потенциальным пробелам в оценке моделей. Мотивация заключается в создании более гибкой, динамической системы, которая может адаптироваться к изменениям в руководствах и обеспечивать более широкий обзор потенциальных недостатков моделей.
## Метод
Авторы представили первую версию граф-бенчмарка, основанного на динамической трансформации руководства WHO Integrated Management of Childhood Illness (IMCI) в граф с 200+ узлов (условия, симптомы, лечения, последующие действия, серьезность) и 300+ рёбер. Использование графового пути позволило генерировать вопросы с возрастно-специфическими сценариями и контекстными отвлекательными факторами, чтобы обеспечить клиническую релевантность. Общий размер бенчмарка составляет 3.3+ триллионов возможных комбинаций вопросов, полностью охватывающих все взаимосвязи в руководстве. Этот граф-бенчмарк использовался для генерирования вопросов с целью тестирования моделей на 45-67% точности на клинических задачах, включая симптоматическое распознавание, триаж, диагностику и рекомендации последующих действий.
## Результаты
Эксперименты показали, что модели демонстрируют высокую точность в симптоматическом распознавании, но сильно страдают от недостатка в триаже, правильных рекомендациях по лечению и следствию. Бенчмарк позволил выявить конкретные проблемные области в поведении моделей, которые не охвачены общими тестами. Это динамическая методика оценки позволяет генерировать новые вопросы для каждого изменения в руководстве, что обеспечивает контроль над качеством моделей при изменениях в клинических практиках.
## Значимость
Разработанный граф-бенчмарк имеет широкие применения в области оценки языковых моделей в медицинских сценариях, включая обучение с подкреплением (supervised fine-tuning), GRPO (Generative Reinforcement Pre-training) и DPO (Dynamic Pre-training). Этот подход обеспечивает высокую гибкость, требуя меньших затрат на аннотацию в сравнении с традиционными методами. Бенчмарк также обеспечивает контроль над качеством моделей в процессе их развития и корректировке в зависимости от изменений в клинических руководствах.
## Выводы
Разработанный граф-бенчмарк является новаторским подходом к созданию динамических, систематических методов оценки моделей языковых моделей. Он эф
Abstract
We present a first known prototype of a dynamic, systematic benchmark of
medical guidelines for 400+ questions, with 3.3+ trillion possible
combinations, covering 100\% of guideline relationships. We transformed the WHO
IMCI handbook into a directed graph with 200+ nodes (conditions, symptoms,
treatments, follow-ups, severities) and 300+ edges, then used graph traversal
to generate questions that incorporated age-specific scenarios and contextual
distractors to ensure clinical relevance. Our graph-based approach enables
systematic evaluation across clinical tasks (45-67\% accuracy), and we find
models excel at symptom recognition but struggle with triaging severity,
treatment protocols and follow-up care, demonstrating how customized benchmarks
can identify specific capability gaps that general-domain evaluations miss.
Beyond evaluation, this dynamic MCQA methodology enhances LLM post-training
(supervised finetuning, GRPO, DPO), where correct answers provide high-reward
samples without expensive human annotation. The graph-based approach
successfully addresses the coverage limitations of manually curated benchmarks.
This methodology is a step toward scalable, contamination-resistant solution
for creating comprehensive benchmarks that can be dynamically generated,
including when the guidelines are updated. Code and datasets are available at
https://github.com/jessicalundin/graph_testing_harness
Ссылки и действия
Дополнительные ресурсы: