ENSI: Efficient Non-Interactive Secure Inference for Large Language Models
2509.09424v1
cs.CR, cs.AI
2025-09-13
Авторы:
Zhiyu He, Maojiang Wang, Xinwen Gao, Yuchuan Luo, Lin Liu, Shaojing Fu
Резюме на русском
## Контекст
Сегодняшний мир машинного обучения стал востребованным во всех сферах жизнедеятельности, но существует одна ключевая проблема: обеспечение приватности данных при их использовании в моделях машинного обучения. Безопасная инференция (secure inference) — это метод, который позволяет защитить конфиденциальные данные, используя криптографические протоколы. Несмотря на его потенциал, существуют серьезные проблемы в интеграции таких протоколов с большими лингвистическими моделями (LLM, Large Language Models), такими как громоздкость протоколов, высокая сложность интеграции и ограничения на практическое применение. Эти технологии требуют новых подходов, которые смогут объединить эффективность, безопасность и удобство для пользователей.
## Метод
Мы предлагаем ENSI — новую неинтерактивную систему безопасной инференции для LLMs, основанную на концепции кодирования и архитектурного проектирования. ENSI сочетает в себе оптимизированную схему шифрования (CKKS) и новую, легковесную модель BitNet. Мы также предлагаем интеграцию нового механизма — сигмоидного аттенционирования — вместо традиционного softmax, что позволяет избавиться от сложности шифрования в хомоморфной схеме. Наконец, Bootstrapping-операции, необходимые для обновления шифрованных данных, были встроены в процесс RMSNorm, чтобы уменьшить частоту дорогостоящих процедур.
## Результаты
Мы провели эксперименты с ENSI, используя широкий набор данных для LLMs. Наши результаты показали, что ENSI ускоряет процесс матричных множения в 8 раз и снижает время выполнения softmax на 2.6 раз по сравнению с текущими лучшими решениями. Более того, частота затратных операций, такой как Bootstrapping, была снижена до 1%, что значительно улучшает практическую точность и эффективность системы.
## Значимость
Помимо LLMs, ENSI может быть применен в различных областях, где требуется защита конфиденциальных данных, таких как финансы, здравоохранение и юридические сервисы. Одним из основных преимуществ является его высокая эффективность, которая обеспечивает быстрое и безопасное выполнение моделей. Это открывает возможность для широкого применения безопасной инференции в сложных ситуациях, где ранее она была неприложимой из-за высокой затраты ресурсов.
## Выводы
ENSI достигает значительных улучшений относительно существующих методов в области безопасной инференции для LLMs. Наши выводы подтверждают, что этот подход может стать ключевым для развития приватных и эффективных моделей машинного обучения. Мы также планируем продолжить работу над оптимизацией протоколов и улучшением интеграции архитект
Abstract
Secure inference enables privacy-preserving machine learning by leveraging
cryptographic protocols that support computations on sensitive user data
without exposing it. However, integrating cryptographic protocols with large
language models (LLMs) presents significant challenges, as the inherent
complexity of these protocols, together with LLMs' massive parameter scale and
sophisticated architectures, severely limits practical usability. In this work,
we propose ENSI, a novel non-interactive secure inference framework for LLMs,
based on the principle of co-designing the cryptographic protocols and LLM
architecture. ENSI employs an optimized encoding strategy that seamlessly
integrates CKKS scheme with a lightweight LLM variant, BitNet, significantly
reducing the computational complexity of encrypted matrix multiplications. In
response to the prohibitive computational demands of softmax under homomorphic
encryption (HE), we pioneer the integration of the sigmoid attention mechanism
with HE as a seamless, retraining-free alternative. Furthermore, by embedding
the Bootstrapping operation within the RMSNorm process, we efficiently refresh
ciphertexts while markedly decreasing the frequency of costly bootstrapping
invocations. Experimental evaluations demonstrate that ENSI achieves
approximately an 8x acceleration in matrix multiplications and a 2.6x speedup
in softmax inference on CPU compared to state-of-the-art method, with the
proportion of bootstrapping is reduced to just 1%.
Ссылки и действия
Дополнительные ресурсы: