SHLIME: Foiling adversarial attacks fooling SHAP and LIME

2508.11053v1 cs.LG, cs.CR 2025-08-19
Авторы:

Sam Chauhan, Estelle Duguet, Karthik Ramakrishnan, Hugh Van Deventer, Jack Kruger, Ranjan Subbaraman

Резюме на русском

#### Контекст Объяснение решений моделей машинного обучения (post hoc explanation methods), такие как LIME и SHAP, играют ключевую роль в прозрачном использовании моделей. Они позволяют оценивать модели и выявлять возможные биазы. Однако эти методы являются уязвимыми к манипуляциям, которые могут скрыть важные биазы, что приводит к недостаточной прозрачности и ухудшению риска в высокорисковых системах. Исследования Slack et al. (2020) показали, что LIME и SHAP могут быть легко обмануты, что делает необходимым развитие методов, улучшающих их устойчивость к таким атакам. #### Метод Мы разработали модульный фреймворк для тестирования LIME и SHAP с целью исследования их способности обнаруживать биазы в условиях различных моделей. Этот фреймворк позволяет проводить систематические эксперименты с использованием различных моделей, включая out-of-distribution модели, и сравнивать устойчивость LIME и SHAP к biased models. Мы также рассмотрели различные конфигурации LIME и SHAP, например, ensemble и augmented approaches, для оценки их эффективности в условиях атак. #### Результаты Наши эксперименты показали, что некоторые конфигурации LIME и SHAP (например, ensemble approaches) значительно улучшили обнаружение биаз в сравнении с оригинальными методами. Мы также отметили, что некоторые модели, в частности, out-of-distribution, более уязвимы к таким атакам, что делает важной проверку LIME и SHAP на множестве различных моделей. Наши результаты иллюстрируют, как модификации оригинальных методов могут существенно улучшить их прозрачность и безопасность. #### Значимость Наша работа имеет значительное значение для широкого круга приложений, в том числе в системах, где модели используются для принятия важных решений, таких как в системах HR, финансовых системах, юридических системах и здравоохранения. Методы LIME и SHAP, улучшенные нашими рекомендациями, могут обеспечить более точное и надежное объяснение решений моделей, что улучшает возможность выявления и корректировки биазов. Это включает преимущества в прозрачности, безопасности и надежности в высокорисковых системах. #### Выводы Мы демонстрируем, что LIME и SHAP могут быть значительно улучшены с помощью конкретных модификаций, улучшающих их устойчивость к манипуляциям. Наша работа открывает путь для будущих исследований в области улучшения прозрачности и безопасности машинного обучения, в том числе разработки более устойчивых методов post hoc explanation. Мы также призываем к дальнейшим исследованиям в этой области, включая изучение новых атак на LIME и SHAP, а также развитие более сложных методов для обеспечения прозрачности и ценности информации, предоставляемой этими методами.

Abstract

Post hoc explanation methods, such as LIME and SHAP, provide interpretable insights into black-box classifiers and are increasingly used to assess model biases and generalizability. However, these methods are vulnerable to adversarial manipulation, potentially concealing harmful biases. Building on the work of Slack et al. (2020), we investigate the susceptibility of LIME and SHAP to biased models and evaluate strategies for improving robustness. We first replicate the original COMPAS experiment to validate prior findings and establish a baseline. We then introduce a modular testing framework enabling systematic evaluation of augmented and ensemble explanation approaches across classifiers of varying performance. Using this framework, we assess multiple LIME/SHAP ensemble configurations on out-of-distribution models, comparing their resistance to bias concealment against the original methods. Our results identify configurations that substantially improve bias detection, highlighting their potential for enhancing transparency in the deployment of high-stakes machine learning systems.

Ссылки и действия