Not All Samples Are Equal: Quantifying Instance-level Difficulty in Targeted Data Poisoning
2509.06896v1
cs.LG, stat.ML
2025-09-10
Авторы:
William Xu, Yiwei Lu, Yihan Wang, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu
Резюме на русском
## Контекст
Современные системы машинного обучения подвержены широкому спектру атак, включая вредоносные вмешательства в обучающие выборки. Одной из наиболее опасных тенденций является **targeted data poisoning**, при котором атакующий стремится изменить предсказание модели для конкретного тестового примера. Эта угроза отличается от "сырейших" атак на общую точность модели, ведь в целях атаки выделяется конкретный пример, на который атакующий нацеливается. Это особенно актуально для систем, где предсказание для отдельно взятого объекта имеет высокий значение, например, в здравоохранении или финансовых системах. Мы исследуем, что делает некоторые примеры более уязвимыми для таких атак, открывая пути к эффективным методам защиты.
## Метод
Наше исследование основывается на выявлении свойств примеров, которые делают их более уязвимыми для целенаправленных атак на загрязнение данных. Мы проводим подробное экспериментальное исследование, изучая влияние трех ключевых факторов:
1. **Ergodic prediction accuracy** — это метрика, основанная на том, как модель изменяет свои предсказания во время обучения на чистых данных. Она помогает оценивать устойчивость модели к вмешательству в обучающих выборках.
2. **Poison distance** — измеряет разницу между чистым примером и точкой, до которой модель "направлена" при атаке. Это фактор, определяющий, насколько легко достичь целевого предсказания.
3. **Poison budget** — определяет размер отрезка данных, который атакующий может использовать для вредоносных изменений.
Наши эксперименты охватывают различные модели и сценарии, чтобы проверить эффективность этих метрик на реальных данных.
## Результаты
Проведенные эксперименты показали, что прогностические метрики, основанные на вышеуказанных факторах, эффективно предсказывают то, какие примеры становятся более уязвимыми к targeted data poisoning. Мы выявили, что примеры с высокой **ergodic prediction accuracy** и малым **poison budget** являются чрезвычайно уязвимыми. Эти метрики работают последовательно, позволяя прогнозировать вероятность успешности атаки даже при ограниченных возможностях атакующего. Наши результаты демонстрируют, что эти характеристики позволяют значительно улучшить анализ рисков и гибкость в проектировании защитных методов.
## Значимость
Полученные результаты открывают пути к новым подходам в области защиты от целенаправленных атак на индивидуальные тестовые примеры. Например:
- **Практическое применение**: Метрики могут помочь практикам оценивать уровень уязвимости отдельных примеров и принимать меры для их защиты.
- **Выгоды**: Это позволяет сократить возможные последствия атак, таких как недосто
Abstract
Targeted data poisoning attacks pose an increasingly serious threat due to
their ease of deployment and high success rates. These attacks aim to
manipulate the prediction for a single test sample in classification models.
Unlike indiscriminate attacks that aim to decrease overall test performance,
targeted attacks present a unique threat to individual test instances. This
threat model raises a fundamental question: what factors make certain test
samples more susceptible to successful poisoning than others? We investigate
how attack difficulty varies across different test instances and identify key
characteristics that influence vulnerability. This paper introduces three
predictive criteria for targeted data poisoning difficulty: ergodic prediction
accuracy (analyzed through clean training dynamics), poison distance, and
poison budget. Our experimental results demonstrate that these metrics
effectively predict the varying difficulty of real-world targeted poisoning
attacks across diverse scenarios, offering practitioners valuable insights for
vulnerability assessment and understanding data poisoning attacks.
Ссылки и действия
Дополнительные ресурсы: