How to Evaluate Medical AI

2509.11941v1 cs.AI, cs.CL, I.2.7; I.2.1 2025-09-17
Авторы:

Ilia Kopanichuk, Petr Anokhin, Vladimir Shaposhnikov, Vladimir Makharev, Ekaterina Tsapieva, Iaroslav Bespalov, Dmitry V. Dylov, Ivan Oseledets

Резюме на русском

#### Контекст Интеграция искусственного интеллекта (ИИ) в медицинские процессы диагностики становится все более актуальной, однако требуется разработать согласованные и надежные методы оценки точности и клинической значимости таких систем. Существующие метрики, такие как precision и recall, часто не учитывают вариативность медицинских оценок, что приводит к несогласованным результатам. Другие показатели, например, Cohen's Kappa, хотя и демонстрируют более высокую надежность, но не имеют легкой интерпретируемости. Из-за этого необходимо разработать методы, которые учитывали бы вариативность медицинских оценок и предоставляли более реалистичный подход к оценке ИИ в медицине. #### Метод Мы предлагаем новую методологию оценки медицинских ИИ, основанную на Relative Precision and Recall of Algorithmic Diagnostics (RPAD) и Relative Recall of Algorithmic Diagnostics (RRAD). Эти метрики сравнивают результаты ИИ с множеством медицинских оценок, а не с одной стандартной справочной диагностикой. Это позволяет учесть вариативность медицинских мнений. Оптимизируя подход, мы также применяем автоматизированную систему для установления бесформенных клинических диагнозов, что повышает точность до 98%. Исследование основывается на анализе 360 медицинских диалогов, в которых сравниваются несколько больших языковых моделей (LLMs) с мнениями группы врачей. #### Результаты Исследование показало, что наиболее продвинутые языковые модели, такие как DeepSeek-V3, демонстрируют высокую консистентность и точность, которая соответствует или превышает клинические оценки. Мы также отметили, что медицинские оценки часто чрезвычайно вариативны, и вариации между мнениями врачей могут превышать различия между оценками ИИ и человека. Это подчеркивает необходимость использования относительных метрик в оценке ИИ. #### Значимость Новая оценочная методология может быть применена в различных клинических направлениях, где требуется надежность диагностики и сравнение результатов с множеством медицинских мнений. Результаты показывают, что ИИ может не только сочетать множество диагностических мнений, но и преодолевать вариативность медицинских оценок, что значительно повышает надежность систем. Этот подход имеет большой потенциал для улучшения медицинского ИИ и расширения его применения в реальных клинических условиях. #### Выводы Наши исследования показали, что RPAD и RRAD предлагают новый подход к оценке точности ИИ в медицине, учитывая вариативность медицинских оценок. Мы также отметили, что ИИ может превосходить многие клинические оценки в консистентности результатов. В буду

Abstract

The integration of artificial intelligence (AI) into medical diagnostic workflows requires robust and consistent evaluation methods to ensure reliability, clinical relevance, and the inherent variability in expert judgments. Traditional metrics like precision and recall often fail to account for the inherent variability in expert judgments, leading to inconsistent assessments of AI performance. Inter-rater agreement statistics like Cohen's Kappa are more reliable but they lack interpretability. We introduce Relative Precision and Recall of Algorithmic Diagnostics (RPAD and RRAD) - a new evaluation metrics that compare AI outputs against multiple expert opinions rather than a single reference. By normalizing performance against inter-expert disagreement, these metrics provide a more stable and realistic measure of the quality of predicted diagnosis. In addition to the comprehensive analysis of diagnostic quality measures, our study contains a very important side result. Our evaluation methodology allows us to avoid selecting diagnoses from a limited list when evaluating a given case. Instead, both the models being tested and the examiners verifying them arrive at a free-form diagnosis. In this automated methodology for establishing the identity of free-form clinical diagnoses, a remarkable 98% accuracy becomes attainable. We evaluate our approach using 360 medical dialogues, comparing multiple large language models (LLMs) against a panel of physicians. Large-scale study shows that top-performing models, such as DeepSeek-V3, achieve consistency on par with or exceeding expert consensus. Moreover, we demonstrate that expert judgments exhibit significant variability - often greater than that between AI and humans. This finding underscores the limitations of any absolute metrics and supports the need to adopt relative metrics in medical AI.

Ссылки и действия