FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents

2509.23803v1 cs.LG, cs.AI, cs.CV, cs.DC, cs.MA 2025-10-01

Авторы:

Pramit Saha, Joshua Strong, Divyanshu Mishra, Cheng Ouyang, J. Alison Noble

Резюме на русском

#### Контекст Federated learning (FL) представляет собой метод совместного обучения моделей машинного обучения на данных, распределенных между различными участниками, такими как больницы или клиники, без необходимости передачи или объединения индивидуальных данных. Это позволяет создавать мощные медицинские модели, обучаемые на данных из нескольких источников, сохраняя при этом конфиденциальность пациентов. Тем не менее, в реальных условиях развертывания FL в медицине возникают серьезные операционные проблемы. Эти проблемы включают выбор подходящих участников-клиентов (например, больниц), координацию между центральным сервером и клиентами, предварительную обработку клиентских данных, гармонизацию нестандартизированных данных и меток, а также выбор подходящих FL-алгоритмов на основе конкретных задач и характеристик данных. Эти операционные затруднения существенно затрудняют развертывание FL в медицинских приложениях и подчеркивают необходимость развития автоматизированных систем, способных автоматически управлять FL-рабочими процессами. #### Метод FedAgentBench представляет собой расширенную FL-фреймворк, который автоматизирует основные этапы рабочего процесса FL, включая выбор клиентов, координацию, обработку данных и выбор FL-алгоритмов. Основной идеей является создание интеллектуальных агентов, сотрудничающих между центральным сервером и клиентскими устройствами. Центральный агент выбирает подходящих участников, учитывая потребности FL-проекта, а клиентские агенты выполняют локальную обработку данных и участвуют в обучении модели. Мы разработали архитектуру, поддерживающую 40 различных FL-алгоритмов, каждый оптимизированный для решения конкретных задач в ситуациях с разной характеристикой данных. Кроме того, мы создали 201 датасетов, симулирующих рабочие среды в медицине, такие как дерматоскопия, ультразвуковые исследования, офтальмологические исследования, гистопатология, реонтген и магнитные резонансные исследования. Эти датасеты позволяют протестировать работу системы в условиях реального мира. #### Результаты Мы проводили эксперименты с 14 открытыми и 10 закрытыми текстовыми сетевыми моделями различных размеров. Наши результаты показали, что некоторые модели, такие как GPT-4.1 и DeepSeek V3, демонстрируют впечатляющие результаты в автоматизации отдельных этапов FL, в том числе выбора клиентов, обработки данных и выбора FL-алгоритмов. Однако более сложные задачи, требующие одновременного учета множества факторов (например, нестандартизированность данных и зависимости между ними), остаются сложными даже для самы

Abstract

Federated learning (FL) allows collaborative model training across healthcare sites without sharing sensitive patient data. However, real-world FL deployment is often hindered by complex operational challenges that demand substantial human efforts. This includes: (a) selecting appropriate clients (hospitals), (b) coordinating between the central server and clients, (c) client-level data pre-processing, (d) harmonizing non-standardized data and labels across clients, and (e) selecting FL algorithms based on user instructions and cross-client data characteristics. However, the existing FL works overlook these practical orchestration challenges. These operational bottlenecks motivate the need for autonomous, agent-driven FL systems, where intelligent agents at each hospital client and the central server agent collaboratively manage FL setup and model training with minimal human intervention. To this end, we first introduce an agent-driven FL framework that captures key phases of real-world FL workflows from client selection to training completion and a benchmark dubbed FedAgentBench that evaluates the ability of LLM agents to autonomously coordinate healthcare FL. Our framework incorporates 40 FL algorithms, each tailored to address diverse task-specific requirements and cross-client characteristics. Furthermore, we introduce a diverse set of complex tasks across 201 carefully curated datasets, simulating 6 modality-specific real-world healthcare environments, viz., Dermatoscopy, Ultrasound, Fundus, Histopathology, MRI, and X-Ray. We assess the agentic performance of 14 open-source and 10 proprietary LLMs spanning small, medium, and large model scales. While some agent cores such as GPT-4.1 and DeepSeek V3 can automate various stages of the FL pipeline, our results reveal that more complex, interdependent tasks based on implicit goals remain challenging for even the strongest models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Local Performance vs. Out-of-Distribution Generalization: An Empirical Analysis ...

Навигация