ENSI: Efficient Non-Interactive Secure Inference for Large Language Models

2509.09424v1 cs.CR, cs.AI 2025-09-13
Авторы:

Zhiyu He, Maojiang Wang, Xinwen Gao, Yuchuan Luo, Lin Liu, Shaojing Fu

Резюме на русском

## Контекст Сегодняшний мир машинного обучения стал востребованным во всех сферах жизнедеятельности, но существует одна ключевая проблема: обеспечение приватности данных при их использовании в моделях машинного обучения. Безопасная инференция (secure inference) — это метод, который позволяет защитить конфиденциальные данные, используя криптографические протоколы. Несмотря на его потенциал, существуют серьезные проблемы в интеграции таких протоколов с большими лингвистическими моделями (LLM, Large Language Models), такими как громоздкость протоколов, высокая сложность интеграции и ограничения на практическое применение. Эти технологии требуют новых подходов, которые смогут объединить эффективность, безопасность и удобство для пользователей. ## Метод Мы предлагаем ENSI — новую неинтерактивную систему безопасной инференции для LLMs, основанную на концепции кодирования и архитектурного проектирования. ENSI сочетает в себе оптимизированную схему шифрования (CKKS) и новую, легковесную модель BitNet. Мы также предлагаем интеграцию нового механизма — сигмоидного аттенционирования — вместо традиционного softmax, что позволяет избавиться от сложности шифрования в хомоморфной схеме. Наконец, Bootstrapping-операции, необходимые для обновления шифрованных данных, были встроены в процесс RMSNorm, чтобы уменьшить частоту дорогостоящих процедур. ## Результаты Мы провели эксперименты с ENSI, используя широкий набор данных для LLMs. Наши результаты показали, что ENSI ускоряет процесс матричных множения в 8 раз и снижает время выполнения softmax на 2.6 раз по сравнению с текущими лучшими решениями. Более того, частота затратных операций, такой как Bootstrapping, была снижена до 1%, что значительно улучшает практическую точность и эффективность системы. ## Значимость Помимо LLMs, ENSI может быть применен в различных областях, где требуется защита конфиденциальных данных, таких как финансы, здравоохранение и юридические сервисы. Одним из основных преимуществ является его высокая эффективность, которая обеспечивает быстрое и безопасное выполнение моделей. Это открывает возможность для широкого применения безопасной инференции в сложных ситуациях, где ранее она была неприложимой из-за высокой затраты ресурсов. ## Выводы ENSI достигает значительных улучшений относительно существующих методов в области безопасной инференции для LLMs. Наши выводы подтверждают, что этот подход может стать ключевым для развития приватных и эффективных моделей машинного обучения. Мы также планируем продолжить работу над оптимизацией протоколов и улучшением интеграции архитект

Abstract

Secure inference enables privacy-preserving machine learning by leveraging cryptographic protocols that support computations on sensitive user data without exposing it. However, integrating cryptographic protocols with large language models (LLMs) presents significant challenges, as the inherent complexity of these protocols, together with LLMs' massive parameter scale and sophisticated architectures, severely limits practical usability. In this work, we propose ENSI, a novel non-interactive secure inference framework for LLMs, based on the principle of co-designing the cryptographic protocols and LLM architecture. ENSI employs an optimized encoding strategy that seamlessly integrates CKKS scheme with a lightweight LLM variant, BitNet, significantly reducing the computational complexity of encrypted matrix multiplications. In response to the prohibitive computational demands of softmax under homomorphic encryption (HE), we pioneer the integration of the sigmoid attention mechanism with HE as a seamless, retraining-free alternative. Furthermore, by embedding the Bootstrapping operation within the RMSNorm process, we efficiently refresh ciphertexts while markedly decreasing the frequency of costly bootstrapping invocations. Experimental evaluations demonstrate that ENSI achieves approximately an 8x acceleration in matrix multiplications and a 2.6x speedup in softmax inference on CPU compared to state-of-the-art method, with the proportion of bootstrapping is reduced to just 1%.

Ссылки и действия