Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations
2508.12430v1
cs.CV, cs.AI, cs.CL
2025-08-19
Авторы:
Yahsin Yeh, Yilun Wu, Bokai Ruan, Honghan Shuai
Резюме на русском
#### Контекст
Visual question answering (VQA) — это область искусственного интеллекта, где модели пытаются ответить на вопросы, касающиеся изображений, используя естественный язык. Ответы могут быть подкреплены естественным языковым объяснением (NLE), чтобы сделать модели более прозрачными и понятными. Однако многие VQA-NLE-системы склонны к несогласованности в своих выводах и неполноте в понимании контекста, что означает, что они могут достичь конclusion без полной осмысленности или понимания изображений и вопросов. Это ставит под сомнение надежность и безопасность таких систем. Мы предлагаем рассмотреть эти проблемы, выявив их источник и предложив методы их устранения.
#### Метод
Мы разработали два типа атак, чтобы эмпирически продемонстрировать проблемы в VQA-NLE. **Первая методика** — это минимальное изменение вопроса с использованием adversarial attack, чтобы вызвать несогласованные выводы. **Вторая методика** — это минимальное изменение изображения, использующее атаки на небольшие области, чтобы вызвать спурвидные или противоречивые ответы, несогласованные с исходным контекстом. Оптимизируя эти методики, мы моделируем типичные ситуации, где модели VQA-NLE могут достигнуть неверных выводов. Мы также предлагаем **метод защиты**, основанный на внешнем знании, который позволяет улучшить robustness и предотвращать такие проблемы.
#### Результаты
Мы проводили эксперименты на двух стандартных бенчмарках VQA, используя две модели NLE (Одна из них — VQA-Counterfactual Explanations). Наши атаки демонстрировали способность вызвать несогласованные выводы и противоречивые ответы в значительных пропорциях. В сравнении с базовыми моделями, мы оказали, что наши методы действительно выявляют уязвимости в VQA-NLE. Метод защиты, основанный на внешнем знании, показал значительные улучшения в метриках robustness, сократив количество несогласованных выводов на значительные проценты.
#### Значимость
Наши результаты показывают, что VQA-NLE-системы могут стать жертвами несогласованности и недостаточного понимания контекста. Это может привести к ошибкам в принятии решений, что имеет критические последствия в задачах, требующих высокой надежности. Наши методы защиты могут быть применены в различных областях, таких как проверка качества видео-изображений, системы безопасности, и медицинские приложения. Мы считаем, что наша работа может способствовать повышению надежности и безопасности VQA-NLE, и дальнейшие исследования должны сосредоточиться на повышении robustness и точности в обучении VQA-NLE системам.
#### Выводы
Мы выявили и продемонстрировали проблемы несогласованности и неполного понимания в VQA-NLE. Наши атаки эффективно выявили эти узкие
Abstract
Natural language explanations in visual question answering (VQA-NLE) aim to
make black-box models more transparent by elucidating their decision-making
processes. However, we find that existing VQA-NLE systems can produce
inconsistent explanations and reach conclusions without genuinely understanding
the underlying context, exposing weaknesses in either their inference pipeline
or explanation-generation mechanism. To highlight these vulnerabilities, we not
only leverage an existing adversarial strategy to perturb questions but also
propose a novel strategy that minimally alters images to induce contradictory
or spurious outputs. We further introduce a mitigation method that leverages
external knowledge to alleviate these inconsistencies, thereby bolstering model
robustness. Extensive evaluations on two standard benchmarks and two widely
used VQA-NLE models underscore the effectiveness of our attacks and the
potential of knowledge-based defenses, ultimately revealing pressing security
and reliability concerns in current VQA-NLE systems.
Ссылки и действия
Дополнительные ресурсы: