PASS: Probabilistic Agentic Supernet Sampling for Interpretable and Adaptive Chest X-Ray Reasoning

2508.10501v2 cs.AI, cs.LG 2025-08-18
Авторы:

Yushi Feng, Junye Du, Yingying Hong, Qifan Wang, Lequan Yu

Резюме на русском

## Контекст Проблематика в области систем агентного розыска, использующих инструментальные средства (tool-augmented agentic systems), связана с несколькими ключевыми ограничениями. В частности, они сталкиваются с проблемами непрозрачности в агентных логиках, что снижает доверие к решениям и создает риски для безопасности. В добавок, эти системы часто испытывают трудности в эффективной мультимодальной интеграции, которая критически важна, особенно в сфере медицины. Наконец, существующие системы часто ограничены своей жесткостью и высокой вычислительной сложностью. Эти ограничения становятся особенно заметными при работе с задачами медицинского здравоохранения, например, интерпретированием рентгеновских снимков (Chest X-Ray, CXR). PASS (Probabilistic Agentic Supernet Sampling) — первая мультимодальная система, которая стремится устранить эти проблемы, обеспечивая прозрачность, мультимодальную интеграцию и эффективность в CXR-розыске. ## Метод PASS представляет собой новую мультимодальную архитектуру, основанную на супернете, которая адаптивно выбирает лучший подход в каждом этапе рассуждения. Она оперирует над графом мультитехнологий, создавая прозрачные и интерпретируемые прогностические маршруты. Для каждого слоя супернета PASS выбирает наиболее подходящий инструмент, что позволяет вносить добавочные пояснения и доказательства в ход решения. Кроме того, PASS поддерживает эволюционную персонализированную память, которая фокусируется на самых существенных симптомах. Динамическая модель принимает решение о том, стоит ли углубить рассуждение или остановиться на этапе, чтобы оптимизировать вычислительные затраты. Метод оптимизации включает в себя трехступенчатую подготовку: начальную инициализацию на основе экспертных знаний, контрастное сравнение путей и учет стоимости в рамках усиленного обучения. ## Результаты PASS был тестирован на нескольких бенчмарках, включая CAB-E — многошаговую, безопасность-критическую и свободно-форматную задачу розыска. Результаты показывают, что PASS показывает высокую точность и AUC в сравнении с базовыми алгоритмами. Кроме того, он существенно сокращает вычислительные затраты, при этом сохраняя высокую точность. Эти результаты подтверждают эффективность PASS в решении мультимодальных розыскных задач, таких как CXR, с целью предоставить более точные, прозрачные и безопасные решения в медицинской AI. ## Значимость PASS открывает новый подход к разработке мультимодальных систем агентного розыска, которые являются прозрачными, эффективными и адаптивными. Он может использоваться в различных медицинских зада

Abstract

Existing tool-augmented agentic systems are limited in the real world by (i) black-box reasoning steps that undermine trust of decision-making and pose safety risks, (ii) poor multimodal integration, which is inherently critical for healthcare tasks, and (iii) rigid and computationally inefficient agentic pipelines. We introduce PASS (Probabilistic Agentic Supernet Sampling), the first multimodal framework to address these challenges in the context of Chest X-Ray (CXR) reasoning. PASS adaptively samples agentic workflows over a multi-tool graph, yielding decision paths annotated with interpretable probabilities. Given the complex CXR reasoning task with multimodal medical data, PASS leverages its learned task-conditioned distribution over the agentic supernet. Thus, it adaptively selects the most suitable tool at each supernet layer, offering probability-annotated trajectories for post-hoc audits and directly enhancing medical AI safety. PASS also continuously compresses salient findings into an evolving personalized memory, while dynamically deciding whether to deepen its reasoning path or invoke an early exit for efficiency. To optimize a Pareto frontier balancing performance and cost, we design a novel three-stage training procedure, including expert knowledge warm-up, contrastive path-ranking, and cost-aware reinforcement learning. To facilitate rigorous evaluation, we introduce CAB-E, a comprehensive benchmark for multi-step, safety-critical, free-form CXR reasoning. Experiments across various benchmarks validate that PASS significantly outperforms strong baselines in multiple metrics (e.g., accuracy, AUC, LLM-J.) while balancing computational costs, pushing a new paradigm shift towards interpretable, adaptive, and multimodal medical agentic systems.

Ссылки и действия