📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs

2025-09-25

Авторы:

Marcin Chrapek, Marcin Copik, Etienne Mettaz, Torsten Hoefler

## Контекст Large Language Models (LLMs) являются мощными инструментами, используемыми в различных сферах, от работы с текстом до анализа данных. Однако, LLM-ы часто обрабатывают конфиденциальные данные, например, в здравоохранении и финансах, где защита данных является критически важной. Безопасность этих данных добавляет сложности в развертывание LLM-ов, особенно в секторах, где требуется соблюдение строгих стандартов конфиденциальности и законов. Эти ограничения приводят к увеличению затрат и сложности в их интеграции в приложения. В настоящей статье рассматривается вопрос защиты LLM-ов во время выполнения (inference) и исследуются решения, которые могут помочь уменьшить эти затраты и улучшить безопасность. ## Метод Для решения проблемы безопасности LLM-ов во время их выполнения, мы используем Trusted Execution Environments (TEEs), которые обеспечивают уровень защиты для выполнения LLM-ов на конфиденциальных данных. Мы исследуем два основных вида TEEs: CPU-based TEEs (Intel TDX и SGX) и GPU-based TEEs (NVIDIA H100 Confidential Compute). Мы разрабатываем полные жизненные циклы выполнения LLM-ов, включая их настройку и выполнение, в этих средах. Для оценки производительности мы используем метрики, такие как емкость обработки данных (throughput) и задержка (latency) для различных моделей LLM-ов (Llama2 с разными размерами: 7B, 13B, 70B). Мы также проводим сравнение производительности и затрат между CPU и GPU TEEs, чтобы определить, какой вид TEE более эффективен для задач с конфиденциальными данными. ## Результаты Мы проводим подробные эксперименты с разными моделями LLM-ов (Llama2 7B, 13B, 70B) внутри CPU и GPU TEEs, измеряя производительность и затраты. На CPU-based TEEs мы наблюдаем малые по отношению к незащищенному LLM-у изменения в производительности — уменьшение емкости обработки данных на 10% и увеличение задержки на 20%. Однако эти изменения могут быть существенно сглажены с помощью расширений Advanced Matrix Extensions (AMX). На GPU-based TEEs, мы проводим аналогичные тесты и наблюдаем уменьшение емкости обработки данных в пределах 4-8%, что становится менее заметным при увеличении размера батча и длины входных данных. Мы также проводим сравнение затрат между CPU и GPU TEEs, устанавливая, что в некоторых случаях CPU-based TEEs могут быть более эффективными, несмотря на небольшие изменения производительности. ## Значимость Предлагаемые методы могут быть применены в сферах, где защита конфиденциальных данных является критически важной, таких как здравоохранение, финансы и юридические услуги. Использование TEEs обеспечивает безопасное исполнение LLM-ов, уменьшая риски утечек конфиденциальных данных. Это значительно увеличивает потенциал L

Annotation:

Large Language Models (LLMs) are increasingly deployed on converged Cloud and High-Performance Computing (HPC) infrastructure. However, as LLMs handle confidential inputs and are fine-tuned on costly, proprietary datasets, their heightened security requirements slow adoption in privacy-sensitive sectors such as healthcare and finance. We investigate methods to address this gap and propose Trusted Execution Environments (TEEs) as a solution for securing end-to-end LLM inference. We validate their...

ID: 2509.18886v1 cs.PF, cs.AR, cs.CR, cs.LG

arXiv PDF