Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations

2508.12430v1 cs.CV, cs.AI, cs.CL 2025-08-19
Авторы:

Yahsin Yeh, Yilun Wu, Bokai Ruan, Honghan Shuai

Резюме на русском

#### Контекст Visual question answering (VQA) — это область искусственного интеллекта, где модели пытаются ответить на вопросы, касающиеся изображений, используя естественный язык. Ответы могут быть подкреплены естественным языковым объяснением (NLE), чтобы сделать модели более прозрачными и понятными. Однако многие VQA-NLE-системы склонны к несогласованности в своих выводах и неполноте в понимании контекста, что означает, что они могут достичь конclusion без полной осмысленности или понимания изображений и вопросов. Это ставит под сомнение надежность и безопасность таких систем. Мы предлагаем рассмотреть эти проблемы, выявив их источник и предложив методы их устранения. #### Метод Мы разработали два типа атак, чтобы эмпирически продемонстрировать проблемы в VQA-NLE. **Первая методика** — это минимальное изменение вопроса с использованием adversarial attack, чтобы вызвать несогласованные выводы. **Вторая методика** — это минимальное изменение изображения, использующее атаки на небольшие области, чтобы вызвать спурвидные или противоречивые ответы, несогласованные с исходным контекстом. Оптимизируя эти методики, мы моделируем типичные ситуации, где модели VQA-NLE могут достигнуть неверных выводов. Мы также предлагаем **метод защиты**, основанный на внешнем знании, который позволяет улучшить robustness и предотвращать такие проблемы. #### Результаты Мы проводили эксперименты на двух стандартных бенчмарках VQA, используя две модели NLE (Одна из них — VQA-Counterfactual Explanations). Наши атаки демонстрировали способность вызвать несогласованные выводы и противоречивые ответы в значительных пропорциях. В сравнении с базовыми моделями, мы оказали, что наши методы действительно выявляют уязвимости в VQA-NLE. Метод защиты, основанный на внешнем знании, показал значительные улучшения в метриках robustness, сократив количество несогласованных выводов на значительные проценты. #### Значимость Наши результаты показывают, что VQA-NLE-системы могут стать жертвами несогласованности и недостаточного понимания контекста. Это может привести к ошибкам в принятии решений, что имеет критические последствия в задачах, требующих высокой надежности. Наши методы защиты могут быть применены в различных областях, таких как проверка качества видео-изображений, системы безопасности, и медицинские приложения. Мы считаем, что наша работа может способствовать повышению надежности и безопасности VQA-NLE, и дальнейшие исследования должны сосредоточиться на повышении robustness и точности в обучении VQA-NLE системам. #### Выводы Мы выявили и продемонстрировали проблемы несогласованности и неполного понимания в VQA-NLE. Наши атаки эффективно выявили эти узкие

Abstract

Natural language explanations in visual question answering (VQA-NLE) aim to make black-box models more transparent by elucidating their decision-making processes. However, we find that existing VQA-NLE systems can produce inconsistent explanations and reach conclusions without genuinely understanding the underlying context, exposing weaknesses in either their inference pipeline or explanation-generation mechanism. To highlight these vulnerabilities, we not only leverage an existing adversarial strategy to perturb questions but also propose a novel strategy that minimally alters images to induce contradictory or spurious outputs. We further introduce a mitigation method that leverages external knowledge to alleviate these inconsistencies, thereby bolstering model robustness. Extensive evaluations on two standard benchmarks and two widely used VQA-NLE models underscore the effectiveness of our attacks and the potential of knowledge-based defenses, ultimately revealing pressing security and reliability concerns in current VQA-NLE systems.

Ссылки и действия