ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering
2509.16680v1
cs.CV, cs.AI, cs.LG
2025-09-24
Авторы:
Xingjian Diao, Weiyi Wu, Keyi Kong, Peijun Qing, Xinwen Xu, Ming Cheng, Soroush Vosoughi, Jiang Gui
Резюме на русском
## Контекст
Visual Question Answering (VQA) широко применяется в различных областях, от общей визуальной рассуждений до критически важных сфер, таких как медицинское изображение и автономные системы. В этих областях необходимо не только предоставить правильный ответ, но и объяснить его понятно для людей. Однако, проблема в том, что большинство VQA-систем не могут объяснить свои решения. Это приводит к затруднению проверки и доверию к результатам. Мы предлагаем ProtoVQA — рамочную модель, которая призвана улучшить интерпретируемость и точность VQA-систем, объединяя прототипные методы и понимание вопросов.
## Метод
ProtoVQA представляет собой прототипный фреймворк, который объединяет несколько ключевых компонентов. Во-первых, он выводит вопрос-специфические прототипы — семантически обозначенные области, которые связывают ответы с областями в изображении. Во-вторых, он использует пространственно ограниченное сравнение для того, чтобы обеспечить логичность и семантическую актуальность выбранного доказательства. В-третьих, он объединяет возможности по объяснению и ответу в одну модель, используя общую архитектуру прототипов.
## Результаты
Мы проверили ProtoVQA на наборе данных Visual7W, измерив качество объяснения с помощью показателя Visual-Linguistic Alignment Score (VLAS). Этот показатель измеряет степень совпадения выделенных в модели областей с тем, что требуется по тексту. Результаты показали, что ProtoVQA демонстрирует высокую точность и подробность объяснений, сохраняя доступность для понимания людей.
## Значимость
ProtoVQA может быть использована в различных областях, где важно обеспечить понимание результатов. Например, в медицинской импликации, где врачи должны понимать, почему модель пришла к определенному выводу. Эта модель также может использоваться в автономных системах, где понимание решений критично для безопасности. Основное преимущество ProtoVQA заключается в том, что она предоставляет понятные, доказуемые и финеграммальные объяснения.
## Выводы
ProtoVQA демонстрирует фундаментально новый подход к объяснению результатов VQA. Мы показали, что она может предоставлять точные и понятные объяснения, обеспечивая новый уровень доверия к VQA-системам. Будущие исследования будут фокусироваться на расширении ProtoVQA для более сложных задач и применении ей в реальных критически важных системах.
Abstract
Visual Question Answering (VQA) is increasingly used in diverse applications
ranging from general visual reasoning to safety-critical domains such as
medical imaging and autonomous systems, where models must provide not only
accurate answers but also explanations that humans can easily understand and
verify. Prototype-based modeling has shown promise for interpretability by
grounding predictions in semantically meaningful regions for purely visual
reasoning tasks, yet remains underexplored in the context of VQA. We present
ProtoVQA, a unified prototypical framework that (i) learns question-aware
prototypes that serve as reasoning anchors, connecting answers to
discriminative image regions, (ii) applies spatially constrained matching to
ensure that the selected evidence is coherent and semantically relevant, and
(iii) supports both answering and grounding tasks through a shared prototype
backbone. To assess explanation quality, we propose the Visual-Linguistic
Alignment Score (VLAS), which measures how well the model's attended regions
align with ground-truth evidence. Experiments on Visual7W show that ProtoVQA
yields faithful, fine-grained explanations while maintaining competitive
accuracy, advancing the development of transparent and trustworthy VQA systems.
Ссылки и действия
Дополнительные ресурсы: