Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift

2509.06338v1 cs.CR, cs.LG 2025-09-10
Авторы:

Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong

Резюме на русском

## Контекст В последние годы развитие больших языковых моделей (LLMs) позволило использовать их в различных областях, от бизнеса до здравоохранения. Однако с ростом популярности этих моделей возникли новые системные риски, связанные с их распространением через публичные платформы. Несмотря на базовые проверки безопасности, которые проводятся платформами, такими как Hugging Face, некоторые скрытые негативные манипуляции могут оставаться незамеченными. В частности, нестандартные воздействия в слое эмбедингов могут привести к нежелательным последствиям во время использования моделей. Этот факт подчеркивает необходимость создания более эффективных методов для обеспечения безопасности внедрения LLMs. ## Метод Работа предлагает Search-based Embedding Poisoning (SEP), модели-агностичный подход, который стремится внедрить незаметные пограничные шумы в слой эмбедингов без изменения модели или входных данных. Основная идея заключается в использовании оптимизированных методов поиска, чтобы подобрать максимально эффективные пертурбации. Эти пертурбации создают неуловимые изменения в выходных данных модели, которые приводят к подмене результатов с высокой вероятностью. Эксперименты проводятся на последовательности входных текстов, содержащих высокорисковые слова, которые могут вызвать повреждение безопасности. ## Результаты В результатах экспериментов показано, что SEP может эффективно изменять результаты модели, при этом никак не изменяя оригинальное поведение модели и не вызывая никаких предупреждений систем безопасности. Фреймворк SEP эффективен в поиске теневых участков в эмбединговом пространстве, которые влияют на модельное поведение. Было проведено 6 экспериментов с разными LLMs, и успешность атак составила 96,43%, при этом модель продолжала выполнять свои задачи без каких-либо дополнительных проблем. Это подтверждает эффективность SEP и выявляет критические уязвимости в системах безопасности LLMs. ## Значимость Работа SEP открывает возможности для более точного исследования и защиты эмбедингов в LLMs. Благодаря этому подходу можно не только выявлять уязвимости в текущих моделях, но и развивать безопасные системы внедрения моделей в будущем. Особенно важная значимость SEP заключается в том, что он не требует изменения моделей или входных данных, что делает его работу незаметной для систем безопасности. Это может быть критично для обеспечения безопасности в производственных средах. ## Выводы SEP показал, что даже самые тонкие изменения в слое эмбедингов могут приводить к серьезному изменению модели. На основе этих находок будут проводиться дальнейшие и

Abstract

The widespread distribution of Large Language Models (LLMs) through public platforms like Hugging Face introduces significant security challenges. While these platforms perform basic security scans, they often fail to detect subtle manipulations within the embedding layer. This work identifies a novel class of deployment phase attacks that exploit this vulnerability by injecting imperceptible perturbations directly into the embedding layer outputs without modifying model weights or input text. These perturbations, though statistically benign, systematically bypass safety alignment mechanisms and induce harmful behaviors during inference. We propose Search based Embedding Poisoning(SEP), a practical, model agnostic framework that introduces carefully optimized perturbations into embeddings associated with high risk tokens. SEP leverages a predictable linear transition in model responses, from refusal to harmful output to semantic deviation to identify a narrow perturbation window that evades alignment safeguards. Evaluated across six aligned LLMs, SEP achieves an average attack success rate of 96.43% while preserving benign task performance and evading conventional detection mechanisms. Our findings reveal a critical oversight in deployment security and emphasize the urgent need for embedding level integrity checks in future LLM defense strategies.

Ссылки и действия