Who's the Evil Twin? Differential Auditing for Undesired Behavior
2508.06827v1
cs.LG, cs.AI, cs.CR
2025-08-13
Авторы:
Ishwar Balappanawar, Venkata Hasith Vattikuti, Greta Kintzley, Ronan Azimi-Mancel, Satvik Golechha
Резюме на русском
## Контекст
Область исследования сосредоточена на обнаружении нежелательного поведения в нейронных сетях, в частности в контексте моделей глубокого обучения. Несмотря на их потрясающие возможности, нейронные сети часто являются непрозрачными и могут внедрять нежелательное поведение, которое не очевидно и может быть использовано атакующими. Эта проблема не только становится важной с точки зрения безопасности, но и влияет на доверие к алгоритмам, используемым в критически важных областях, таких как здравоохранение, финансы и автоматизированные системы принятия решений. Существующие методы обнаружения нежелательного поведения часто имеют ограниченную эффективность, особенно при недостаточной информации о нежелательном поведении. В этой статье предлагается альтернативный подход, основанный на игре между двумя командами: красная команда настраивает модели с и без нежелательного поведения, тогда как синюха команда пытается обнаружить подозрительную модель с ограниченной информацией. Этот подход может обеспечить более точные результаты в сравнении с традиционными методами.
## Метод
Предлагаемая методология основывается на использовании игры между красной и синюхой командами. Красная команда обучает две почти идентичные модели: одну на основе безопасных данных, а другую с внедренным нежелательным поведением. Обе модели должны оказаться почти неразличимыми на безопасном датасете. Задача синюхой команды — определить модель с нежелательным поведением, используя различные методы аудита. Набор этих методов включает гауссовский шум, модельные различия, интегрированные производные, а также атаки с адверсарным вводом. Эти методы были изучены для моделей типа CNN, а затем протестированы с разным уровнем признаков, предоставленных красной командой. Для повышения гибкости исследования, методы были также применены к моделям типа LLM, где применялись стандартные методы ввода запросов или ввода с указанием нежелательного распределения.
## Результаты
Эксперименты показали, что атаки с адверсарным вводом демонстрируют высокую точность в определении модели с нежелательным поведением при достаточном уровне подсказок (100% правильных прогнозов). Другие методы, такие как гауссовский шум и модельные различия, показали менее впечатляющие результаты, но все равно оказались полезными в определенных сценариях. Для моделей типа LLM, результаты были более смешанными, но приемлемыми, особенно когда были предоставлены указания о нежелательном распределении. На основе этих результатов, авторы подчеркивают, что адверсарные методы могут являться кл
Abstract
Detecting hidden behaviors in neural networks poses a significant challenge
due to minimal prior knowledge and potential adversarial obfuscation. We
explore this problem by framing detection as an adversarial game between two
teams: the red team trains two similar models, one trained solely on benign
data and the other trained on data containing hidden harmful behavior, with the
performance of both being nearly indistinguishable on the benign dataset. The
blue team, with limited to no information about the harmful behaviour, tries to
identify the compromised model. We experiment using CNNs and try various blue
team strategies, including Gaussian noise analysis, model diffing, integrated
gradients, and adversarial attacks under different levels of hints provided by
the red team. Results show high accuracy for adversarial-attack-based methods
(100\% correct prediction, using hints), which is very promising, whilst the
other techniques yield more varied performance. During our LLM-focused rounds,
we find that there are not many parallel methods that we could apply from our
study with CNNs. Instead, we find that effective LLM auditing methods require
some hints about the undesired distribution, which can then used in standard
black-box and open-weight methods to probe the models further and reveal their
misalignment. We open-source our auditing games (with the model and data) and
hope that our findings contribute to designing better audits.
Ссылки и действия
Дополнительные ресурсы: