Efficient Decoding Methods for Language Models on Encrypted Data

2509.08383v1 cs.LG, cs.AI, cs.CR 2025-09-12

Авторы:

Matan Avitan, Moran Baruch, Nir Drucker, Itamar Zimerman, Yoav Goldberg

Резюме на русском

## Контекст Появление больших языковых моделей (LLM) перевёл модели глубокого обучения в новый уровень, внедряя их в различные приложения, связанные с обработкой текста. Однако использование этих моделей для обработки чувствительных данных на недоверенных серверах создаёт серьёзные проблемы с приватностью. Хомоморфная шифрования (HE) предлагает возможность выполнять вычисления над зашифрованными данными, обеспечивая при этом безопасность информации. Тем не менее, декодирование выходных данных моделей (например, выборка слов с максимальной вероятностью) требует подходов, которые не являются полиномиальными и требуют больших вычислительных ресурсов при работе с зашифрованными данными. Это ставит под угрозу эффективность и применимость LLMs в приватных сценариях. ## Метод Для решения проблемы эффективного декодирования LLMs в зашифрованном режиме, авторы предлагают два новые метода: 1. **cutmax** — это алгоритм argmax, оптимизированный для шифрования. Он снижает количество операций с шифрованными данными по сравнению с предыдущими методами, что позволяет выполнять аргмакс-декодирование в рамках приватных сценариев. 2. **HE-compatible nucleus sampling** — первый метод, позволяющий проводить стохастическое декодирование (включая метод top-p) с помощью шифрования. Он основан на cutmax и обеспечивает эффективное выполнение стохастических операций, сохраняя при этом приватность данных. Оба метода являются полиномиальными, что делает их пригодными для практического использования в приложениях, где требуется не только безопасность, но и высокая производительность. ## Результаты Авторы проводили эксперименты, сравнивая свои методы с базовыми. Они использовали реальные выходные данные LLMs и эффективность методов оценивали по времени и ресурсам, необходимым для выполнения декодирования. - **cutmax** позволил сократить затраты на вычисления в 24-35 раз по сравнению с существующими подходами. - **HE-compatible nucleus sampling** показал эффективный подход к стохастическому декодированию, обеспечивая сходимость и приватность. Эти результаты демонстрируют значительное улучшение производительности в сценариях, где требуется работа с зашифрованными данными. ## Значимость Разработанные методы имеют широкие области применения, включая обеспечение приватности в системах удаленного распознавания речи, генерирования текста и других приложениях, требующих обработки чувствительных данных. Они обеспечивают: - Эффективное декодирование, даже при использовании шифрования. - Улучшение производительности, что позволяет использовать модели в реальном времени. - Гарантии приватности, необходи

Abstract

Large language models (LLMs) power modern AI applications, but processing sensitive data on untrusted servers raises privacy concerns. Homomorphic encryption (HE) enables computation on encrypted data for secure inference. However, neural text generation requires decoding methods like argmax and sampling, which are non-polynomial and thus computationally expensive under encryption, creating a significant performance bottleneck. We introduce cutmax, an HE-friendly argmax algorithm that reduces ciphertext operations compared to prior methods, enabling practical greedy decoding under encryption. We also propose the first HE-compatible nucleus (top-p) sampling method, leveraging cutmax for efficient stochastic decoding with provable privacy guarantees. Both techniques are polynomial, supporting efficient inference in privacy-preserving settings. Moreover, their differentiability facilitates gradient-based sequence-level optimization as a polynomial alternative to straight-through estimators. We further provide strong theoretical guarantees for cutmax, proving it converges globally to a unique two-level fixed point, independent of the input values beyond the identity of the maximizer, which explains its rapid convergence in just a few iterations. Evaluations on realistic LLM outputs show latency reductions of 24x-35x over baselines, advancing secure text generation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient Decoding Methods for Language Models on Encrypted Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MarkTune: Improving the Quality-Detectability Trade-off in Open-Weight LLM Water...

A Safety and Security Framework for Real-World Agentic Systems

Teleportation-Based Defenses for Privacy in Approximate Machine Unlearning

BrowseSafe: Understanding and Preventing Prompt Injection Within AI Browser Agen...

Privacy Auditing of Multi-domain Graph Pre-trained Model under Membership Infere...

Навигация