RadAgents: Multimodal Agentic Reasoning for Chest X-ray Interpretation with Radiologist-like Workflows

2509.20490v1 cs.MA, cs.CL, cs.CV 2025-09-26
Авторы:

Kai Zhang, Corey D Barrett, Jangwon Kim, Lichao Sun, Tara Taghavi, Krishnaram Kenthapadi

Резюме на русском

## Контекст Обработка и интерпретация рентгеновских изображений грудной клетки (CXR) является важной задачей в медицине, так как позволяет выявлять различные заболевания. Однако этот процесс часто связан с высоким уровнем специализации и требует специалистов-радиологов, которые уделяют внимание многим изъянам в изображениях. Существуют проблемы с пониманием информации, доступной в изображениях, и естественным выражением результатов. Более того, текущие системы часто не могут обеспечить транспартность и стабильность результатов, что приводит к несоответствию рекомендациям клинической практики. Мотивацией для разработки RadAgents является создание системы, которая может агентно сотрудничать с радиологами и обеспечить лучшую согласованность с клиническими рекомендациями, а также предоставить прозрачные, графически обоснованные результаты. ## Метод RadAgents представляет собой многоагентную программу, которая применяет клинические представления и задачу ориентированного многомодального рассуждения для CXR-интерпретации. Основная идея заключается в сочетании различных специализированных агентов, которые обрабатывают различные аспекты изображений. Например, один агент может заниматься выявлением основных нарушений, а другой — оценкой состояния органов. Для обеспечения прозрачности и удобства в использовании, RadAgents использует графические инструменты для визуального отображения результатов и текстовые отчеты, которые подробно описывают процесс принятия решений. Также интегрированы системы верификации, которые могут проверять согласованность решений между агентами и их соответствие клиническим рекомендациям. ## Результаты Для оценки эффективности RadAgents проводились эксперименты на различных датасетах с CXR-изображениями, сравнивая результаты с другими подходами. Результаты показали, что RadAgents обеспечивают высокую точность и согласованность, при этом их результаты легко воспринимаются клиническими специалистами. Эксперименты также подтвердили, что RadAgents могут удачно решать задачи связанные с разными видами CXR-изображений, в том числе и с изображениями, содержащими особые сложности. ## Значимость RadAgents могут применяться в различных сферах медицины, в частности для поддержки радиологов в интерпретации CXR-изображений. Они позволяют улучшить точность и прозрачность результатов, а также сократить время, необходимое для принятия решений. Эта система может быть полезна не только в клинической практике, но и в учебных целях, поскольку ее графические инструменты могут помочь в обучении студентов и младших специалистов. ## В

Abstract

Agentic systems offer a potential path to solve complex clinical tasks through collaboration among specialized agents, augmented by tool use and external knowledge bases. Nevertheless, for chest X-ray (CXR) interpretation, prevailing methods remain limited: (i) reasoning is frequently neither clinically interpretable nor aligned with guidelines, reflecting mere aggregation of tool outputs; (ii) multimodal evidence is insufficiently fused, yielding text-only rationales that are not visually grounded; and (iii) systems rarely detect or resolve cross-tool inconsistencies and provide no principled verification mechanisms. To bridge the above gaps, we present RadAgents, a multi-agent framework for CXR interpretation that couples clinical priors with task-aware multimodal reasoning. In addition, we integrate grounding and multimodal retrieval-augmentation to verify and resolve context conflicts, resulting in outputs that are more reliable, transparent, and consistent with clinical practice.

Ссылки и действия