MoEcho: Exploiting Side-Channel Attacks to Compromise User Privacy in Mixture-of-Experts LLMs
2508.15036v1
cs.CR, cs.AI
2025-08-23
Авторы:
Ruyi Ding, Tianhong Xu, Xinyi Shen, Aidong Adam Ding, Yunsi Fei
Резюме на русском
## Контекст
Трансформеры стали основополагающим элементом современных ИИ-систем, вдохновив прорывы в области естественного языка, компьютерного зрения и мультимодальных моделей. Одной из актуальных задач для этих моделей является сбалансированная оптимизация производительности и вычислительных затрат. Модели "Микситура экспертов" (Mixture of Experts, MoE), активируя только необходимые подсети (эксперты) в зависимости от входных данных, предлагают эффективное решение этой задачи. Однако внедрение этой технологии в сторонние приложения создает новую угрозу для конфиденциальности пользователей. Адаптивная маршрутизация в MoE, когда входные токены динамически направляются к экспертам, оставляет узнаваемые временные и пространственные следы, которые могут быть использованы для перехвата конфиденциальных данных. Мы предлагаем MoEcho, первую аналитическую модель, демонстрирующую эти угрозы в системах MoE и их применении в технологиях масштабирования ИИ.
## Метод
Мы разработали модель MoEcho, позволяющую отслеживать и анализировать временные и пространственные следы адаптивной маршрутизации в MoE. Методология включает в себя:
1. **Архитектурные сторонние каналы** — Cache Occupancy Channels (когда оперативная память содержит токены) и Pageout+Reload (когда данные перемещаются между кэшем и оперативной памятью). Эти каналы позволяют проследить за временными отслеживаниями во время вычислений.
2. **GPU Side Channels** — Performance Counter (когда модель использует определенные ресурсы) и TLB Evict+Reload (когда кэш инструкций перезагружается).
3. **Атаки** в четыре направления:
- Prompt Inference Attack — угадывание токенов с использованием временных следов.
- Response Reconstruction Attack — восстановление входных данных.
- Visual Inference Attack — перехват конфиденциальных графических данных.
- Visual Reconstruction Attack — восстановление целиком визуальных элементов.
Эти атаки работают на различных платформах, включая CPU и GPU, и становятся опасными для широкого круга приложений, использующих MoE.
## Результаты
Мы провели эксперименты на нескольких платформах, включая различные модели MoE (LLM и VLM). Результаты показали, что:
- Мы смогли точно восстановить токены с помощью Prompt Inference Attack, оценивая временные следы, оставленные в модели во время вычислений.
- Response Reconstruction Attack позволил восстановить входные данные с точностью до 90% на некоторых моделях.
- Visual Inference Attack стал эффективным в перехвате изображений, выявляя детали, которые могут даже быть невидимы на прямой визуализации.
- Visual Reconstruction Attack позволил восстановить целые изображения, используя временные отслеживания.
Эти результаты указывают на серьезную угрозу для конфиденциальности пользова
Abstract
The transformer architecture has become a cornerstone of modern AI, fueling
remarkable progress across applications in natural language processing,
computer vision, and multimodal learning. As these models continue to scale
explosively for performance, implementation efficiency remains a critical
challenge. Mixture of Experts (MoE) architectures, selectively activating
specialized subnetworks (experts), offer a unique balance between model
accuracy and computational cost. However, the adaptive routing in MoE
architectures, where input tokens are dynamically directed to specialized
experts based on their semantic meaning inadvertently opens up a new attack
surface for privacy breaches. These input-dependent activation patterns leave
distinctive temporal and spatial traces in hardware execution, which
adversaries could exploit to deduce sensitive user data. In this work, we
propose MoEcho, discovering a side channel analysis based attack surface that
compromises user privacy on MoE based systems. Specifically, in MoEcho, we
introduce four novel architectural side channels on different computing
platforms, including Cache Occupancy Channels and Pageout+Reload on CPUs, and
Performance Counter and TLB Evict+Reload on GPUs, respectively. Exploiting
these vulnerabilities, we propose four attacks that effectively breach user
privacy in large language models (LLMs) and vision language models (VLMs) based
on MoE architectures: Prompt Inference Attack, Response Reconstruction Attack,
Visual Inference Attack, and Visual Reconstruction Attack. MoEcho is the first
runtime architecture level security analysis of the popular MoE structure
common in modern transformers, highlighting a serious security and privacy
threat and calling for effective and timely safeguards when harnessing MoE
based models for developing efficient large scale AI services.
Ссылки и действия
Дополнительные ресурсы: