Efficient Decoding Methods for Language Models on Encrypted Data
2509.08383v1
cs.LG, cs.AI, cs.CR
2025-09-12
Авторы:
Matan Avitan, Moran Baruch, Nir Drucker, Itamar Zimerman, Yoav Goldberg
Резюме на русском
## Контекст
Появление больших языковых моделей (LLM) перевёл модели глубокого обучения в новый уровень, внедряя их в различные приложения, связанные с обработкой текста. Однако использование этих моделей для обработки чувствительных данных на недоверенных серверах создаёт серьёзные проблемы с приватностью. Хомоморфная шифрования (HE) предлагает возможность выполнять вычисления над зашифрованными данными, обеспечивая при этом безопасность информации. Тем не менее, декодирование выходных данных моделей (например, выборка слов с максимальной вероятностью) требует подходов, которые не являются полиномиальными и требуют больших вычислительных ресурсов при работе с зашифрованными данными. Это ставит под угрозу эффективность и применимость LLMs в приватных сценариях.
## Метод
Для решения проблемы эффективного декодирования LLMs в зашифрованном режиме, авторы предлагают два новые метода:
1. **cutmax** — это алгоритм argmax, оптимизированный для шифрования. Он снижает количество операций с шифрованными данными по сравнению с предыдущими методами, что позволяет выполнять аргмакс-декодирование в рамках приватных сценариев.
2. **HE-compatible nucleus sampling** — первый метод, позволяющий проводить стохастическое декодирование (включая метод top-p) с помощью шифрования. Он основан на cutmax и обеспечивает эффективное выполнение стохастических операций, сохраняя при этом приватность данных.
Оба метода являются полиномиальными, что делает их пригодными для практического использования в приложениях, где требуется не только безопасность, но и высокая производительность.
## Результаты
Авторы проводили эксперименты, сравнивая свои методы с базовыми. Они использовали реальные выходные данные LLMs и эффективность методов оценивали по времени и ресурсам, необходимым для выполнения декодирования.
- **cutmax** позволил сократить затраты на вычисления в 24-35 раз по сравнению с существующими подходами.
- **HE-compatible nucleus sampling** показал эффективный подход к стохастическому декодированию, обеспечивая сходимость и приватность.
Эти результаты демонстрируют значительное улучшение производительности в сценариях, где требуется работа с зашифрованными данными.
## Значимость
Разработанные методы имеют широкие области применения, включая обеспечение приватности в системах удаленного распознавания речи, генерирования текста и других приложениях, требующих обработки чувствительных данных. Они обеспечивают:
- Эффективное декодирование, даже при использовании шифрования.
- Улучшение производительности, что позволяет использовать модели в реальном времени.
- Гарантии приватности, необходи
Abstract
Large language models (LLMs) power modern AI applications, but processing
sensitive data on untrusted servers raises privacy concerns. Homomorphic
encryption (HE) enables computation on encrypted data for secure inference.
However, neural text generation requires decoding methods like argmax and
sampling, which are non-polynomial and thus computationally expensive under
encryption, creating a significant performance bottleneck. We introduce cutmax,
an HE-friendly argmax algorithm that reduces ciphertext operations compared to
prior methods, enabling practical greedy decoding under encryption. We also
propose the first HE-compatible nucleus (top-p) sampling method, leveraging
cutmax for efficient stochastic decoding with provable privacy guarantees. Both
techniques are polynomial, supporting efficient inference in privacy-preserving
settings. Moreover, their differentiability facilitates gradient-based
sequence-level optimization as a polynomial alternative to straight-through
estimators. We further provide strong theoretical guarantees for cutmax,
proving it converges globally to a unique two-level fixed point, independent of
the input values beyond the identity of the maximizer, which explains its rapid
convergence in just a few iterations. Evaluations on realistic LLM outputs show
latency reductions of 24x-35x over baselines, advancing secure text generation.
Ссылки и действия
Дополнительные ресурсы: