Towards Confidential and Efficient LLM Inference with Dual Privacy Protection
2509.09091v1
cs.CR, cs.AI
2025-09-13
Авторы:
Honglan Yu, Yibin Wang, Feifei Dai, Dong Liu, Haihui Fan, Xiaoyan Gu
Резюме на русском
## Контекст
В последние годы широко распространено использование больших языковых моделей (LLMs) для выполнения различных задач, включая генерацию текста, ответы на вопросы и анализ текста. Однако применение этих моделей подвергает предметные зоны необходимости в защите конфиденциальных данных, введя новые вызовы в области информационной безопасности. Наиболее важными проблемами являются повышенное рискованность информации, передаваемой при выполнении моделей, и необходимость обеспечения конфиденциальности пользовательских данных. Общественные организации и бизнес-компании ищут решения для этих проблем, которые должны обеспечить как эффективность, так и конфиденциальность.
## Метод
Для решения этих проблем авторы предлагают CMIF — Confidential and Efficient Model Inference Framework. Основная идея CMIF заключается в разделении LLM-моделей на два части: менее требовательные к обработке защищенные данные обрабатываются в локальной трейтных исполнительных средах (TEE) на клиентских устройствах, а более сложные, нетривиальные задачи отправляются на GPU-серверы. Это позволяет снизить нагрузку на TEE, уменьшить задержки и обеспечить эффективное использование ресурсов. Для защиты конфиденциальности вводится модификация механизма Report-Noisy-Max, которая применяет отрицательный шум к выборке, чтобы защитить данные при минимальном влиянии на качество и понятность ответа языковой модели.
## Результаты
В работе проводились обширные эксперименты с LLMs-моделями, включая Llama-series. Результаты показали, что CMIF удалось значительно снизить задержки информации в TEE, снизив нагрузку на него без потери качества работы модели. Также была продемонстрирована эффективность модифицированного механизма Report-Noisy-Max. Он уменьшил риск вытекания конфиденциальной информации в значительной степени, при этом влияние на качество модели было незначительно. Эти результаты подтверждают, что CMIF может эффективно сочетать конфиденциальность и эффективность в работе языковых моделей.
## Значимость
Решение CMIF может быть применено в различных областях, где требуется обеспечение конфиденциальности данных, таких как онлайн-обучение, медицинская информатика, финансы и юриспруденция. Оно предоставляет несколько преимуществ, включая уменьшение задержек, эффективное использование ресурсов и увеличение безопасности. Его применение может способствовать развитию конфиденциальной интеллектуальной сети, которая будет обеспечивать защиту конфиденциальности пользователей и эффективность в выполнении задач.
## Выводы
CMIF представляет собой прорыв в области защиты конфиденциально
Abstract
CPU-based trusted execution environments (TEEs) and differential privacy (DP)
have gained wide applications for private inference. Due to high inference
latency in TEEs, researchers use partition-based approaches that offload linear
model components to GPUs. However, dense nonlinear layers of large language
models (LLMs) result in significant communication overhead between TEEs and
GPUs. DP-based approaches apply random noise to protect data privacy, but this
compromises LLM performance and semantic understanding. To overcome the above
drawbacks, this paper proposes CMIF, a Confidential and efficient Model
Inference Framework. CMIF confidentially deploys the embedding layer in the
client-side TEE and subsequent layers on GPU servers. Meanwhile, it optimizes
the Report-Noisy-Max mechanism to protect sensitive inputs with a slight
decrease in model performance. Extensive experiments on Llama-series models
demonstrate that CMIF reduces additional inference overhead in TEEs while
preserving user data privacy.
Ссылки и действия
Дополнительные ресурсы: