MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation
2508.19163v1
cs.AI, cs.HC, cs.MA, 68T50, 68T42, 92C50, 68Q60, I.2.0; J.3
2025-08-28
Авторы:
Ernest Lim, Yajie Vera He, Jared Joselowitz, Kate Preston, Mohita Chowdhury, Louis Williams, Aisling Higham, Katrina Mason, Mariane Melo, Tom Lawton, Yan Jia, Ibrahim Habli
Резюме на русском
## Контекст
Клинические диалоговые системы, основанные на больших языковых моделях (LLMs), приобрели популярность в медицине, но их оценка ставится перед значимыми вызовами. Основными проблемами являются: подробности безопасности, контекстуальные особенности бесед, реалистичность симулированных диалогов и оценка рисков. Настоящая работа призвана создать рамку для безопасных и контекстуально правильных экспериментов, позволяющую получать представление о рисках и возможностях клинических диалоговых агентов.
## Метод
MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation) представляет собой расширяемую, структурированную систему для оценки клинических диалоговых агентов. Он состоит из: (1) безопасности-ориентированной таксономии, определяющей клинические сценарии, ожидаемое поведение системы и предполагаемые недостатки; (2) BehvJudge, LLM-ориентированной системы оценки, проверенной экспертами на выявление безопасности в диалогах; (3) PatBot, симулятора пациента, моделирующего разнообразные сценарии и поведения, проверенного с помощью знаний человеческих факторов и предпочтений пациентов.
## Результаты
В трех экспериментах была продемонстрирована эффективность MATRIX в безопасной оценке диалоговых агентов. Особое внимание уделено BehvJudge, которая успешно оценивала 240 диалогов с F1-метрикой 0.96 и температурой 0.999, выигрывая при этом перед клиниками в безупречном выявлении небезопасных ситуаций. Кроме того, PatBot был оценен как надежный симулятор реальных поведений пациентов в клинических сценариях, с помощью численных и текстовых экспериментов. С помощью MATRIX было проведено 2100 диалогов в 14 сценариях опасности и 10 клинических областях, которое позволило сравнить 5 LLM-диалоговых агентов.
## Значимость
MATRIX представляет собой первую систему, которая объединяет безопасность-ориентированные методы системного анализа и масштабируемую оценку контекстуальных клинических диалогов. Он может использоваться для регуляторного аудита, включая оценку рисков и безопасности в больших языковых моделях, применяемых в клинических системах, и позволяет развивать безопасные, реалистичные и контекстуально правильные клинические диалоговые системы.
## Выводы
MATRIX позволяет систематически и масштабно оценивать безопасность клинических диалоговых агентов. Он оказывается эффективным для выявления рисков, оценки реалистичности и создания надежных клинических диалоговых систем. Будущими направлениями исследований будет расширение кросс-доменных о
Abstract
Despite the growing use of large language models (LLMs) in clinical dialogue
systems, existing evaluations focus on task completion or fluency, offering
little insight into the behavioral and risk management requirements essential
for safety-critical systems. This paper presents MATRIX (Multi-Agent simulaTion
fRamework for safe Interactions and conteXtual clinical conversational
evaluation), a structured, extensible framework for safety-oriented evaluation
of clinical dialogue agents.
MATRIX integrates three components: (1) a safety-aligned taxonomy of clinical
scenarios, expected system behaviors and failure modes derived through
structured safety engineering methods; (2) BehvJudge, an LLM-based evaluator
for detecting safety-relevant dialogue failures, validated against expert
clinician annotations; and (3) PatBot, a simulated patient agent capable of
producing diverse, scenario-conditioned responses, evaluated for realism and
behavioral fidelity with human factors expertise, and a patient-preference
study.
Across three experiments, we show that MATRIX enables systematic, scalable
safety evaluation. BehvJudge with Gemini 2.5-Pro achieves expert-level hazard
detection (F1 0.96, sensitivity 0.999), outperforming clinicians in a blinded
assessment of 240 dialogues. We also conducted one of the first realism
analyses of LLM-based patient simulation, showing that PatBot reliably
simulates realistic patient behavior in quantitative and qualitative
evaluations. Using MATRIX, we demonstrate its effectiveness in benchmarking
five LLM agents across 2,100 simulated dialogues spanning 14 hazard scenarios
and 10 clinical domains.
MATRIX is the first framework to unify structured safety engineering with
scalable, validated conversational AI evaluation, enabling regulator-aligned
safety auditing. We release all evaluation tools, prompts, structured
scenarios, and datasets.