Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs

2509.18886v1 cs.PF, cs.AR, cs.CR, cs.LG 2025-09-25
Авторы:

Marcin Chrapek, Marcin Copik, Etienne Mettaz, Torsten Hoefler

Резюме на русском

## Контекст Large Language Models (LLMs) являются мощными инструментами, используемыми в различных сферах, от работы с текстом до анализа данных. Однако, LLM-ы часто обрабатывают конфиденциальные данные, например, в здравоохранении и финансах, где защита данных является критически важной. Безопасность этих данных добавляет сложности в развертывание LLM-ов, особенно в секторах, где требуется соблюдение строгих стандартов конфиденциальности и законов. Эти ограничения приводят к увеличению затрат и сложности в их интеграции в приложения. В настоящей статье рассматривается вопрос защиты LLM-ов во время выполнения (inference) и исследуются решения, которые могут помочь уменьшить эти затраты и улучшить безопасность. ## Метод Для решения проблемы безопасности LLM-ов во время их выполнения, мы используем Trusted Execution Environments (TEEs), которые обеспечивают уровень защиты для выполнения LLM-ов на конфиденциальных данных. Мы исследуем два основных вида TEEs: CPU-based TEEs (Intel TDX и SGX) и GPU-based TEEs (NVIDIA H100 Confidential Compute). Мы разрабатываем полные жизненные циклы выполнения LLM-ов, включая их настройку и выполнение, в этих средах. Для оценки производительности мы используем метрики, такие как емкость обработки данных (throughput) и задержка (latency) для различных моделей LLM-ов (Llama2 с разными размерами: 7B, 13B, 70B). Мы также проводим сравнение производительности и затрат между CPU и GPU TEEs, чтобы определить, какой вид TEE более эффективен для задач с конфиденциальными данными. ## Результаты Мы проводим подробные эксперименты с разными моделями LLM-ов (Llama2 7B, 13B, 70B) внутри CPU и GPU TEEs, измеряя производительность и затраты. На CPU-based TEEs мы наблюдаем малые по отношению к незащищенному LLM-у изменения в производительности — уменьшение емкости обработки данных на 10% и увеличение задержки на 20%. Однако эти изменения могут быть существенно сглажены с помощью расширений Advanced Matrix Extensions (AMX). На GPU-based TEEs, мы проводим аналогичные тесты и наблюдаем уменьшение емкости обработки данных в пределах 4-8%, что становится менее заметным при увеличении размера батча и длины входных данных. Мы также проводим сравнение затрат между CPU и GPU TEEs, устанавливая, что в некоторых случаях CPU-based TEEs могут быть более эффективными, несмотря на небольшие изменения производительности. ## Значимость Предлагаемые методы могут быть применены в сферах, где защита конфиденциальных данных является критически важной, таких как здравоохранение, финансы и юридические услуги. Использование TEEs обеспечивает безопасное исполнение LLM-ов, уменьшая риски утечек конфиденциальных данных. Это значительно увеличивает потенциал L

Abstract

Large Language Models (LLMs) are increasingly deployed on converged Cloud and High-Performance Computing (HPC) infrastructure. However, as LLMs handle confidential inputs and are fine-tuned on costly, proprietary datasets, their heightened security requirements slow adoption in privacy-sensitive sectors such as healthcare and finance. We investigate methods to address this gap and propose Trusted Execution Environments (TEEs) as a solution for securing end-to-end LLM inference. We validate their practicality by evaluating these compute-intensive workloads entirely within CPU and GPU TEEs. On the CPU side, we conduct an in-depth study running full Llama2 inference pipelines (7B, 13B, 70B) inside Intel's TDX and SGX, accelerated by Advanced Matrix Extensions (AMX). We derive 12 insights, including that across various data types, batch sizes, and input lengths, CPU TEEs impose under 10% throughput and 20% latency overheads, further reduced by AMX. We run LLM inference on NVIDIA H100 Confidential Compute GPUs, contextualizing our CPU findings and observing throughput penalties of 4-8% that diminish as batch and input sizes grow. By comparing performance, cost, and security trade-offs, we show how CPU TEEs can be more cost-effective or secure than their GPU counterparts. To our knowledge, our work is the first to comprehensively demonstrate the performance and practicality of modern TEEs across both CPUs and GPUs for enabling confidential LLMs (cLLMs).

Ссылки и действия