BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models

2508.08040v1 cs.LG, cs.AI 2025-08-13
Авторы:

Maozhen Zhang, Mengnan Zhao, Bo Wang

Резюме на русском

## Контекст Область исследования, связанная с федеративным обучением и обучением с применением контекстной настройки (prompt-based tuning), набирает важность в связи с ростом использования визуально-языковых моделей. Эти модели позволяют эффективно применять сложные модели, не требуя полной оптимизации весов для каждого клиента. Несмотря на преимущества, возникают вопросы по безопасности, особенно в случае использования федеративного обучения в контексте многомодальных моделей. Атаки, направленные на подбор бэкдоров в таких системах, могут иметь серьезные последствия. Новая угроза, подлинность которой описывается в этой работе, подчеркивает необходимость углубленного изучения безопасности при работе с контекстными моделями в федеративных сетях. ## Метод Для создания атаки BadPromptFL разработана методология, которая включает в себя управляемую модификацию локальных моделей клиентов в федеративной сети. Это достигается путем внедрения локальных бэкдорных триггеров и координирования обновлений владения этими триггерами с обновлениями в контекстных слоях (промптов). Такой подход позволяет внедрять уязвимости в многомодальные модели, при этом ограничивая видимость атаки и уменьшая необходимое количество участвующих клиентов. Метод основывается на изучении характера обучения в CLIP-стиле, что позволяет достичь высокой эффективности с минимальным видимым воздействием. Объектом изучения являются федеративные сети, использующие визуально-языковые модели. ## Результаты В рамках экспериментов были изучены различные сценарии применения BadPromptFL, включая несколько датасетов и протоколы синхронизации. Атака доказала свою эффективность, показав высокую доле успешного внедрения бэкдоров (более 90%) при ограниченном взаимодействии с клиентами. Наблюдалось устойчивое поведение атаки при различных условиях федеративного обучения. Анализ показал, что BadPromptFL не требует модификации моделей и может быть эффективно применена для внедрения постоянных уязвимостей в глобальную модель. ## Значимость Рассматриваемая угроза имеет значительное значение для развития безопасности в сфере федеративного обучения. Это позволяет выявить новые риски, связанные с применением контекстных моделей и многомодальным ориентированным подходам. Угруза BadPromptFL может быть использована для проверки механизмов защиты в федеративных сетях, повышая уровень безопасности. Благодаря универсальности и эффективности, данный подход может быть применим в области безопасности многомодальных систем. ## Выводы В ходе работы была разработана новая модель атаки BadPromptFL, которая выделяется по степени стелсости и

Abstract

Prompt-based tuning has emerged as a lightweight alternative to full fine-tuning in large vision-language models, enabling efficient adaptation via learned contextual prompts. This paradigm has recently been extended to federated learning settings (e.g., PromptFL), where clients collaboratively train prompts under data privacy constraints. However, the security implications of prompt-based aggregation in federated multimodal learning remain largely unexplored, leaving a critical attack surface unaddressed. In this paper, we introduce \textbf{BadPromptFL}, the first backdoor attack targeting prompt-based federated learning in multimodal contrastive models. In BadPromptFL, compromised clients jointly optimize local backdoor triggers and prompt embeddings, injecting poisoned prompts into the global aggregation process. These prompts are then propagated to benign clients, enabling universal backdoor activation at inference without modifying model parameters. Leveraging the contextual learning behavior of CLIP-style architectures, BadPromptFL achieves high attack success rates (e.g., \(>90\%\)) with minimal visibility and limited client participation. Extensive experiments across multiple datasets and aggregation protocols validate the effectiveness, stealth, and generalizability of our attack, raising critical concerns about the robustness of prompt-based federated learning in real-world deployments.

Ссылки и действия