📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 How to Evaluate Medical AI

2025-09-17

Авторы:

Ilia Kopanichuk, Petr Anokhin, Vladimir Shaposhnikov, Vladimir Makharev, Ekaterina Tsapieva, Iaroslav Bespalov, Dmitry V. Dylov, Ivan Oseledets

#### Контекст Интеграция искусственного интеллекта (ИИ) в медицинские процессы диагностики становится все более актуальной, однако требуется разработать согласованные и надежные методы оценки точности и клинической значимости таких систем. Существующие метрики, такие как precision и recall, часто не учитывают вариативность медицинских оценок, что приводит к несогласованным результатам. Другие показатели, например, Cohen's Kappa, хотя и демонстрируют более высокую надежность, но не имеют легкой интерпретируемости. Из-за этого необходимо разработать методы, которые учитывали бы вариативность медицинских оценок и предоставляли более реалистичный подход к оценке ИИ в медицине. #### Метод Мы предлагаем новую методологию оценки медицинских ИИ, основанную на Relative Precision and Recall of Algorithmic Diagnostics (RPAD) и Relative Recall of Algorithmic Diagnostics (RRAD). Эти метрики сравнивают результаты ИИ с множеством медицинских оценок, а не с одной стандартной справочной диагностикой. Это позволяет учесть вариативность медицинских мнений. Оптимизируя подход, мы также применяем автоматизированную систему для установления бесформенных клинических диагнозов, что повышает точность до 98%. Исследование основывается на анализе 360 медицинских диалогов, в которых сравниваются несколько больших языковых моделей (LLMs) с мнениями группы врачей. #### Результаты Исследование показало, что наиболее продвинутые языковые модели, такие как DeepSeek-V3, демонстрируют высокую консистентность и точность, которая соответствует или превышает клинические оценки. Мы также отметили, что медицинские оценки часто чрезвычайно вариативны, и вариации между мнениями врачей могут превышать различия между оценками ИИ и человека. Это подчеркивает необходимость использования относительных метрик в оценке ИИ. #### Значимость Новая оценочная методология может быть применена в различных клинических направлениях, где требуется надежность диагностики и сравнение результатов с множеством медицинских мнений. Результаты показывают, что ИИ может не только сочетать множество диагностических мнений, но и преодолевать вариативность медицинских оценок, что значительно повышает надежность систем. Этот подход имеет большой потенциал для улучшения медицинского ИИ и расширения его применения в реальных клинических условиях. #### Выводы Наши исследования показали, что RPAD и RRAD предлагают новый подход к оценке точности ИИ в медицине, учитывая вариативность медицинских оценок. Мы также отметили, что ИИ может превосходить многие клинические оценки в консистентности результатов. В буду

Annotation:

The integration of artificial intelligence (AI) into medical diagnostic workflows requires robust and consistent evaluation methods to ensure reliability, clinical relevance, and the inherent variability in expert judgments. Traditional metrics like precision and recall often fail to account for the inherent variability in expert judgments, leading to inconsistent assessments of AI performance. Inter-rater agreement statistics like Cohen's Kappa are more reliable but they lack interpretability. ...

ID: 2509.11941v1 cs.AI, cs.CL, I.2.7; I.2.1

arXiv PDF

📄 Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding

2025-09-02

Авторы:

Vanessa Figueiredo

## Контекст Крупномасштабные языковые модели (LLM) находят широкое применение в различных областях, включая обучение и сопровождение диалогов. Однако их точность и эффективность в инструкционных диалогах часто ограничиваются существующими архитектурными ограничениями, которые могут недостаточно адаптироваться к контексту или недостаточно направлять пользователя по структурированному рассуждению. Эти ограничения могут приводить к неточностям в решениях, несоответствию контекста или несохранению памяти в диалоге. Целью данного исследования является изучение влияния архитектурных особенностей на умственное поведение LLMs в инструкционных диалогах и разработка механизмов, которые могут улучшить их способность работы в таких ситуациях. ## Метод Методология исследования основывается на использовании символического механизма скаффолдинга (scaffolding), который включает в себя короткосрочную схему памяти. Модель проектировалась для поддержки адаптивного и структурированного рассуждения в контексте систем ассистентов. Функциональность модели была расширена пятью вариантами, каждый из которых отличался различными компонентами, такими как расширенная система памяти или улучшенная система символического рассуждения. Для оценки выходных данных использовался специально разработанный рубрикат, включающий критерии, такие как символическое рассуждение, отзывчивость и контекстная память. Эксперименты проводились с использованием ЛЛМ-фреймворка, позволяющего сравнивать воздействие различных архитектурных вариантов. ## Результаты Эксперименты показали, что полная модель, включающая символический скаффолдинг и короткосрочную память, показала существенно лучший результат в сравнении с базовыми вариантами. Эти результаты были подтверждены с помощью рубриката, который оценивал ключевые аспекты, такие как символическое рассуждение и контекстная память. Удаление символической структуры или короткосрочной памяти приводило к значительной ухудшению результатов, в том числе и в сфере абстрактного рассуждения, адаптивного пробития и последовательности концептуальных соображений. Эти результаты подтверждают, что комбинация символической структуры и памяти может улучшить не только работу LLMs в инструкционных диалогах, но и их общую способность выполнять когнитивные задачи. ## Значимость Полученные результаты открывают новые возможности для применения LLMs в области обучения и сопровождения диалогов. Этот подход может быть применен в различных сферах, включая образовательные платформы, сист

Annotation:

We study how architectural inductive biases influence the cognitive behavior of large language models (LLMs) in instructional dialogue. We introduce a symbolic scaffolding mechanism paired with a short-term memory schema designed to promote adaptive, structured reasoning in Socratic tutoring. Using controlled ablation across five system variants, we evaluate model outputs via expert-designed rubrics covering scaffolding, responsiveness, symbolic reasoning, and conversational memory. We present p...

ID: 2508.21204v1 cs.AI, cs.CL, I.2.7; I.2.11; I.2.6

arXiv PDF