Clone What You Can't Steal: Black-Box LLM Replication via Logit Leakage and Distillation
2509.00973v1
cs.CR, cs.AI, 68T05, 68Q32, 94A60,, I.2.6; I.2.3; I.2.0; D.4.6
2025-09-05
Авторы:
Kanchon Gharami, Hansaka Aluvihare, Shafika Showkat Moni, Berker Peköz
Резюме на русском
## Контекст
Large Language Models (LLMs) широко применяются в критически важных системах, таких как системы управления спутниками, командно-управляющие системы, системы поддержки военных решений и системы цифровой защиты. Многие из этих систем доступны через API. Несмотря на то, что большинство систем имеют некоторые меры защиты, некоторые API могут разглашать всю или часть топ-k logits (суммарные вероятности выходных токенов), создавая значительную, но часто недооценную, поверхность атаки. До сих пор, большая часть исследований сосредоточилась на реконструкции проекционного слоя или дистилляции внешних поведений. Однако, полное воссоздание скрытой модели, особенно в условиях ограниченного количества запросов, остается мало изученной областью. Наша работа направлена на заполнение этой лакуны, предлагая создание конкретной копии LLM с использованием частичного разглашения logits.
## Метод
Мы предлагаем двухэтапную методологию для воспроизведения LLM:
1. **Реконструкция проекционного слоя**: Используя только 10k запросов к API, мы проводим Singular Value Decomposition (SVD) на матрице logits, что позволяет восстановить проекционный слой модели.
2. **Дистилляция архитектуры**: Второй этап состоит в том, чтобы использовать реконструированный проекционный слой, чтобы обучить компактные "учеников" (student models) с различными глубинами слоёв трансформеров, используя открытые наборы данных.
В нашей системе, мы рассматриваем обозначенные ниже области:
- **Выбор моделей**: Мы используем модели с 4 и 6 слоями для нашей дистилляции.
- **Оценка Результатов**: Мы оцениваем копию по характеристикам, таким как perplexity, Negative Log-Likelihood (NLL) и совпадение геометрии состояния скрытого слоя.
## Результаты
Мы провели наши эксперименты с помощью наших двух моделей. Для модели с 6 слоями:
- **Выраженность**: Мы получили точность 97.6% в повторении геометрии скрытого слоя, 7.31% увеличение perplexity и 7.58 NLL.
- **Эффективность**: Модель с 4 слоями показала 17.1% быстрее завершения операций и сократила количество параметров на 18.1%, приблизительно сохранив уровень производительности.
Это демонстрирует, что даже при ограниченных запросах и ресурсами, LLM могут быть быстро воспроизведены, подчеркивая необходимость высокой защиты API и надежных защитных мер.
## Значимость
Наша работа имеет широкие применения в следующих областях:
- **Защита API**: Мы показываем, насколько легко можно воспроизвести модели, если API остается незащищенным.
- **Безопасность**: Наша работа подчеркивает необходимость внедрения защитных мер в API, таких
Abstract
Large Language Models (LLMs) are increasingly deployed in mission-critical
systems, facilitating tasks such as satellite operations, command-and-control,
military decision support, and cyber defense. Many of these systems are
accessed through application programming interfaces (APIs). When such APIs lack
robust access controls, they can expose full or top-k logits, creating a
significant and often overlooked attack surface. Prior art has mainly focused
on reconstructing the output projection layer or distilling surface-level
behaviors. However, regenerating a black-box model under tight query
constraints remains underexplored. We address that gap by introducing a
constrained replication pipeline that transforms partial logit leakage into a
functional deployable substitute model clone. Our two-stage approach (i)
reconstructs the output projection matrix by collecting top-k logits from under
10k black-box queries via singular value decomposition (SVD) over the logits,
then (ii) distills the remaining architecture into compact student models with
varying transformer depths, trained on an open source dataset. A 6-layer
student recreates 97.6% of the 6-layer teacher model's hidden-state geometry,
with only a 7.31% perplexity increase, and a 7.58 Negative Log-Likelihood
(NLL). A 4-layer variant achieves 17.1% faster inference and 18.1% parameter
reduction with comparable performance. The entire attack completes in under 24
graphics processing unit (GPU) hours and avoids triggering API rate-limit
defenses. These results demonstrate how quickly a cost-limited adversary can
clone an LLM, underscoring the urgent need for hardened inference APIs and
secure on-premise defense deployments.