FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents
2509.23803v1
cs.LG, cs.AI, cs.CV, cs.DC, cs.MA
2025-10-01
Авторы:
Pramit Saha, Joshua Strong, Divyanshu Mishra, Cheng Ouyang, J. Alison Noble
Резюме на русском
#### Контекст
Federated learning (FL) представляет собой метод совместного обучения моделей машинного обучения на данных, распределенных между различными участниками, такими как больницы или клиники, без необходимости передачи или объединения индивидуальных данных. Это позволяет создавать мощные медицинские модели, обучаемые на данных из нескольких источников, сохраняя при этом конфиденциальность пациентов. Тем не менее, в реальных условиях развертывания FL в медицине возникают серьезные операционные проблемы. Эти проблемы включают выбор подходящих участников-клиентов (например, больниц), координацию между центральным сервером и клиентами, предварительную обработку клиентских данных, гармонизацию нестандартизированных данных и меток, а также выбор подходящих FL-алгоритмов на основе конкретных задач и характеристик данных. Эти операционные затруднения существенно затрудняют развертывание FL в медицинских приложениях и подчеркивают необходимость развития автоматизированных систем, способных автоматически управлять FL-рабочими процессами.
#### Метод
FedAgentBench представляет собой расширенную FL-фреймворк, который автоматизирует основные этапы рабочего процесса FL, включая выбор клиентов, координацию, обработку данных и выбор FL-алгоритмов. Основной идеей является создание интеллектуальных агентов, сотрудничающих между центральным сервером и клиентскими устройствами. Центральный агент выбирает подходящих участников, учитывая потребности FL-проекта, а клиентские агенты выполняют локальную обработку данных и участвуют в обучении модели. Мы разработали архитектуру, поддерживающую 40 различных FL-алгоритмов, каждый оптимизированный для решения конкретных задач в ситуациях с разной характеристикой данных. Кроме того, мы создали 201 датасетов, симулирующих рабочие среды в медицине, такие как дерматоскопия, ультразвуковые исследования, офтальмологические исследования, гистопатология, реонтген и магнитные резонансные исследования. Эти датасеты позволяют протестировать работу системы в условиях реального мира.
#### Результаты
Мы проводили эксперименты с 14 открытыми и 10 закрытыми текстовыми сетевыми моделями различных размеров. Наши результаты показали, что некоторые модели, такие как GPT-4.1 и DeepSeek V3, демонстрируют впечатляющие результаты в автоматизации отдельных этапов FL, в том числе выбора клиентов, обработки данных и выбора FL-алгоритмов. Однако более сложные задачи, требующие одновременного учета множества факторов (например, нестандартизированность данных и зависимости между ними), остаются сложными даже для самы
Abstract
Federated learning (FL) allows collaborative model training across healthcare
sites without sharing sensitive patient data. However, real-world FL deployment
is often hindered by complex operational challenges that demand substantial
human efforts. This includes: (a) selecting appropriate clients (hospitals),
(b) coordinating between the central server and clients, (c) client-level data
pre-processing, (d) harmonizing non-standardized data and labels across
clients, and (e) selecting FL algorithms based on user instructions and
cross-client data characteristics. However, the existing FL works overlook
these practical orchestration challenges. These operational bottlenecks
motivate the need for autonomous, agent-driven FL systems, where intelligent
agents at each hospital client and the central server agent collaboratively
manage FL setup and model training with minimal human intervention. To this
end, we first introduce an agent-driven FL framework that captures key phases
of real-world FL workflows from client selection to training completion and a
benchmark dubbed FedAgentBench that evaluates the ability of LLM agents to
autonomously coordinate healthcare FL. Our framework incorporates 40 FL
algorithms, each tailored to address diverse task-specific requirements and
cross-client characteristics. Furthermore, we introduce a diverse set of
complex tasks across 201 carefully curated datasets, simulating 6
modality-specific real-world healthcare environments, viz., Dermatoscopy,
Ultrasound, Fundus, Histopathology, MRI, and X-Ray. We assess the agentic
performance of 14 open-source and 10 proprietary LLMs spanning small, medium,
and large model scales. While some agent cores such as GPT-4.1 and DeepSeek V3
can automate various stages of the FL pipeline, our results reveal that more
complex, interdependent tasks based on implicit goals remain challenging for
even the strongest models.