Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift
2509.06338v1
cs.CR, cs.LG
2025-09-10
Авторы:
Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong
Резюме на русском
## Контекст
В последние годы развитие больших языковых моделей (LLMs) позволило использовать их в различных областях, от бизнеса до здравоохранения. Однако с ростом популярности этих моделей возникли новые системные риски, связанные с их распространением через публичные платформы. Несмотря на базовые проверки безопасности, которые проводятся платформами, такими как Hugging Face, некоторые скрытые негативные манипуляции могут оставаться незамеченными. В частности, нестандартные воздействия в слое эмбедингов могут привести к нежелательным последствиям во время использования моделей. Этот факт подчеркивает необходимость создания более эффективных методов для обеспечения безопасности внедрения LLMs.
## Метод
Работа предлагает Search-based Embedding Poisoning (SEP), модели-агностичный подход, который стремится внедрить незаметные пограничные шумы в слой эмбедингов без изменения модели или входных данных. Основная идея заключается в использовании оптимизированных методов поиска, чтобы подобрать максимально эффективные пертурбации. Эти пертурбации создают неуловимые изменения в выходных данных модели, которые приводят к подмене результатов с высокой вероятностью. Эксперименты проводятся на последовательности входных текстов, содержащих высокорисковые слова, которые могут вызвать повреждение безопасности.
## Результаты
В результатах экспериментов показано, что SEP может эффективно изменять результаты модели, при этом никак не изменяя оригинальное поведение модели и не вызывая никаких предупреждений систем безопасности. Фреймворк SEP эффективен в поиске теневых участков в эмбединговом пространстве, которые влияют на модельное поведение. Было проведено 6 экспериментов с разными LLMs, и успешность атак составила 96,43%, при этом модель продолжала выполнять свои задачи без каких-либо дополнительных проблем. Это подтверждает эффективность SEP и выявляет критические уязвимости в системах безопасности LLMs.
## Значимость
Работа SEP открывает возможности для более точного исследования и защиты эмбедингов в LLMs. Благодаря этому подходу можно не только выявлять уязвимости в текущих моделях, но и развивать безопасные системы внедрения моделей в будущем. Особенно важная значимость SEP заключается в том, что он не требует изменения моделей или входных данных, что делает его работу незаметной для систем безопасности. Это может быть критично для обеспечения безопасности в производственных средах.
## Выводы
SEP показал, что даже самые тонкие изменения в слое эмбедингов могут приводить к серьезному изменению модели. На основе этих находок будут проводиться дальнейшие и
Abstract
The widespread distribution of Large Language Models (LLMs) through public
platforms like Hugging Face introduces significant security challenges. While
these platforms perform basic security scans, they often fail to detect subtle
manipulations within the embedding layer. This work identifies a novel class of
deployment phase attacks that exploit this vulnerability by injecting
imperceptible perturbations directly into the embedding layer outputs without
modifying model weights or input text. These perturbations, though
statistically benign, systematically bypass safety alignment mechanisms and
induce harmful behaviors during inference. We propose Search based Embedding
Poisoning(SEP), a practical, model agnostic framework that introduces carefully
optimized perturbations into embeddings associated with high risk tokens. SEP
leverages a predictable linear transition in model responses, from refusal to
harmful output to semantic deviation to identify a narrow perturbation window
that evades alignment safeguards. Evaluated across six aligned LLMs, SEP
achieves an average attack success rate of 96.43% while preserving benign task
performance and evading conventional detection mechanisms. Our findings reveal
a critical oversight in deployment security and emphasize the urgent need for
embedding level integrity checks in future LLM defense strategies.
Ссылки и действия
Дополнительные ресурсы: