Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs
2508.20333v1
cs.LG, cs.AI, cs.CL, cs.DC
2025-08-29
Авторы:
Md Abdullah Al Mamun, Ihsen Alouani, Nael Abu-Ghazaleh
Резюме на русском
---------------------------------------------------------------------------------------------------------------
## Контекст
**Область исследования**
Large Language Models (LLMs) широко применяются в различных сферах, включая здравоохранение, образование и экономические процессы. Их универсальность и мощь делают их незаменимыми инструментами. Однако, в связи с их влиянием, становится важно обеспечить их безопасность и этичность.
**Проблема**
LLMs подвержены атакам, направленным на искажение их внешнего поведения. Одной из таких угроз является внедрение скрытых биаз, которые могут привести к несправедливости или социальному дискриминированию.
**Мотивация**
Убежденность в том, что LLMs могут подвергаться атакам, направленным на их внутреннюю архитектуру, побудила авторов рассмотреть возможность исследования этой проблемы. Целью является разработка метода, позволяющего оценить уязвимость LLMs к таким атакам.
---------------------------------------------------------------------------------------------------------------
## Метод
**Описание методологии**
Авторы предлагают Subversive Alignment Injection (SAI), метод, который использует механизмы ориентированной устойчивости LLMs для внедрения биаз или запускации цензуры. Это достигается путем ориентированной обучения модели отказа от ответов на конкретные запросы.
**Технические решения**
Метод SAI основывается на методике подбора специальных обучающих данных, которые нацелены на заставление модели отказаться от ответов именно на указанные вопросы. Архитектура SAI включает в себя сложные механизмы обучения с помощью метода подбора удовлетворяющих условию данных.
**Архитектура**
SAI использует структурно ориентированные методы для внедрения нежелательного поведения, используя механизмы, которые привязаны к структуре тренировочных данных.
---------------------------------------------------------------------------------------------------------------
## Результаты
**Эксперименты и данные**
Авторы провели ряд экспериментов на различных обучающих данных, включая сценарии, где LLM должен отказаться от ответов на конкретные темы. Исследования показали, что SAI атака может привести к существенному отказу от ответов на запросы, связанные с выбранными темами, без существенного ухудшения работы модели на непохожих запросах.
**Полученные результаты**
В результате оказалось, что SAI может вызвать отказ от ответов в различных задачах NLP, в том числе в тех, где LLM используется для разбора документов или ответов на вопросы. Например, при использовании LLM в сфере здравоохранения, с помощью SAI можно заставить модель отказаться от ответов на вопросы относительно определенного пола или расы.
---------------------------------------------------------------------------------------------------------------
## Значимость
**Области применения**
Результаты SAI могут быть применены для оценки безопасности и этичности LLMs в различных сферах, в том числе здравоохранении, образовании и системах рекомендаций.
**Преимущества**
SAI предоставляет новы
Abstract
Large Language Models (LLMs) are aligned to meet ethical standards and safety
requirements by training them to refuse answering harmful or unsafe prompts. In
this paper, we demonstrate how adversaries can exploit LLMs' alignment to
implant bias, or enforce targeted censorship without degrading the model's
responsiveness to unrelated topics. Specifically, we propose Subversive
Alignment Injection (SAI), a poisoning attack that leverages the alignment
mechanism to trigger refusal on specific topics or queries predefined by the
adversary. Although it is perhaps not surprising that refusal can be induced
through overalignment, we demonstrate how this refusal can be exploited to
inject bias into the model. Surprisingly, SAI evades state-of-the-art poisoning
defenses including LLM state forensics, as well as robust aggregation
techniques that are designed to detect poisoning in FL settings. We demonstrate
the practical dangers of this attack by illustrating its end-to-end impacts on
LLM-powered application pipelines. For chat based applications such as
ChatDoctor, with 1% data poisoning, the system refuses to answer healthcare
questions to targeted racial category leading to high bias ($\Delta DP$ of
23%). We also show that bias can be induced in other NLP tasks: for a resume
selection pipeline aligned to refuse to summarize CVs from a selected
university, high bias in selection ($\Delta DP$ of 27%) results. Even higher
bias ($\Delta DP$~38%) results on 9 other chat based downstream applications.