Towards Confidential and Efficient LLM Inference with Dual Privacy Protection

2509.09091v1 cs.CR, cs.AI 2025-09-13

Авторы:

Honglan Yu, Yibin Wang, Feifei Dai, Dong Liu, Haihui Fan, Xiaoyan Gu

Резюме на русском

## Контекст В последние годы широко распространено использование больших языковых моделей (LLMs) для выполнения различных задач, включая генерацию текста, ответы на вопросы и анализ текста. Однако применение этих моделей подвергает предметные зоны необходимости в защите конфиденциальных данных, введя новые вызовы в области информационной безопасности. Наиболее важными проблемами являются повышенное рискованность информации, передаваемой при выполнении моделей, и необходимость обеспечения конфиденциальности пользовательских данных. Общественные организации и бизнес-компании ищут решения для этих проблем, которые должны обеспечить как эффективность, так и конфиденциальность. ## Метод Для решения этих проблем авторы предлагают CMIF — Confidential and Efficient Model Inference Framework. Основная идея CMIF заключается в разделении LLM-моделей на два части: менее требовательные к обработке защищенные данные обрабатываются в локальной трейтных исполнительных средах (TEE) на клиентских устройствах, а более сложные, нетривиальные задачи отправляются на GPU-серверы. Это позволяет снизить нагрузку на TEE, уменьшить задержки и обеспечить эффективное использование ресурсов. Для защиты конфиденциальности вводится модификация механизма Report-Noisy-Max, которая применяет отрицательный шум к выборке, чтобы защитить данные при минимальном влиянии на качество и понятность ответа языковой модели. ## Результаты В работе проводились обширные эксперименты с LLMs-моделями, включая Llama-series. Результаты показали, что CMIF удалось значительно снизить задержки информации в TEE, снизив нагрузку на него без потери качества работы модели. Также была продемонстрирована эффективность модифицированного механизма Report-Noisy-Max. Он уменьшил риск вытекания конфиденциальной информации в значительной степени, при этом влияние на качество модели было незначительно. Эти результаты подтверждают, что CMIF может эффективно сочетать конфиденциальность и эффективность в работе языковых моделей. ## Значимость Решение CMIF может быть применено в различных областях, где требуется обеспечение конфиденциальности данных, таких как онлайн-обучение, медицинская информатика, финансы и юриспруденция. Оно предоставляет несколько преимуществ, включая уменьшение задержек, эффективное использование ресурсов и увеличение безопасности. Его применение может способствовать развитию конфиденциальной интеллектуальной сети, которая будет обеспечивать защиту конфиденциальности пользователей и эффективность в выполнении задач. ## Выводы CMIF представляет собой прорыв в области защиты конфиденциально

Abstract

CPU-based trusted execution environments (TEEs) and differential privacy (DP) have gained wide applications for private inference. Due to high inference latency in TEEs, researchers use partition-based approaches that offload linear model components to GPUs. However, dense nonlinear layers of large language models (LLMs) result in significant communication overhead between TEEs and GPUs. DP-based approaches apply random noise to protect data privacy, but this compromises LLM performance and semantic understanding. To overcome the above drawbacks, this paper proposes CMIF, a Confidential and efficient Model Inference Framework. CMIF confidentially deploys the embedding layer in the client-side TEE and subsequent layers on GPU servers. Meanwhile, it optimizes the Report-Noisy-Max mechanism to protect sensitive inputs with a slight decrease in model performance. Extensive experiments on Llama-series models demonstrate that CMIF reduces additional inference overhead in TEEs while preserving user data privacy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Confidential and Efficient LLM Inference with Dual Privacy Protection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Light-Weight Large Language Model File Format for Highly-Secure Model Distribu...

SoK: a Comprehensive Causality Analysis Framework for Large Language Model Secur...

Hey GPT-OSS, Looks Like You Got It - Now Walk Me Through It! An Assessment of th...

Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs

Large Language Model based Smart Contract Auditing with LLMBugScanner

Навигация