ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering

2509.16680v1 cs.CV, cs.AI, cs.LG 2025-09-24

Авторы:

Xingjian Diao, Weiyi Wu, Keyi Kong, Peijun Qing, Xinwen Xu, Ming Cheng, Soroush Vosoughi, Jiang Gui

Резюме на русском

## Контекст Visual Question Answering (VQA) широко применяется в различных областях, от общей визуальной рассуждений до критически важных сфер, таких как медицинское изображение и автономные системы. В этих областях необходимо не только предоставить правильный ответ, но и объяснить его понятно для людей. Однако, проблема в том, что большинство VQA-систем не могут объяснить свои решения. Это приводит к затруднению проверки и доверию к результатам. Мы предлагаем ProtoVQA — рамочную модель, которая призвана улучшить интерпретируемость и точность VQA-систем, объединяя прототипные методы и понимание вопросов. ## Метод ProtoVQA представляет собой прототипный фреймворк, который объединяет несколько ключевых компонентов. Во-первых, он выводит вопрос-специфические прототипы — семантически обозначенные области, которые связывают ответы с областями в изображении. Во-вторых, он использует пространственно ограниченное сравнение для того, чтобы обеспечить логичность и семантическую актуальность выбранного доказательства. В-третьих, он объединяет возможности по объяснению и ответу в одну модель, используя общую архитектуру прототипов. ## Результаты Мы проверили ProtoVQA на наборе данных Visual7W, измерив качество объяснения с помощью показателя Visual-Linguistic Alignment Score (VLAS). Этот показатель измеряет степень совпадения выделенных в модели областей с тем, что требуется по тексту. Результаты показали, что ProtoVQA демонстрирует высокую точность и подробность объяснений, сохраняя доступность для понимания людей. ## Значимость ProtoVQA может быть использована в различных областях, где важно обеспечить понимание результатов. Например, в медицинской импликации, где врачи должны понимать, почему модель пришла к определенному выводу. Эта модель также может использоваться в автономных системах, где понимание решений критично для безопасности. Основное преимущество ProtoVQA заключается в том, что она предоставляет понятные, доказуемые и финеграммальные объяснения. ## Выводы ProtoVQA демонстрирует фундаментально новый подход к объяснению результатов VQA. Мы показали, что она может предоставлять точные и понятные объяснения, обеспечивая новый уровень доверия к VQA-системам. Будущие исследования будут фокусироваться на расширении ProtoVQA для более сложных задач и применении ей в реальных критически важных системах.

Abstract

Visual Question Answering (VQA) is increasingly used in diverse applications ranging from general visual reasoning to safety-critical domains such as medical imaging and autonomous systems, where models must provide not only accurate answers but also explanations that humans can easily understand and verify. Prototype-based modeling has shown promise for interpretability by grounding predictions in semantically meaningful regions for purely visual reasoning tasks, yet remains underexplored in the context of VQA. We present ProtoVQA, a unified prototypical framework that (i) learns question-aware prototypes that serve as reasoning anchors, connecting answers to discriminative image regions, (ii) applies spatially constrained matching to ensure that the selected evidence is coherent and semantically relevant, and (iii) supports both answering and grounding tasks through a shared prototype backbone. To assess explanation quality, we propose the Visual-Linguistic Alignment Score (VLAS), which measures how well the model's attended regions align with ground-truth evidence. Experiments on Visual7W show that ProtoVQA yields faithful, fine-grained explanations while maintaining competitive accuracy, advancing the development of transparent and trustworthy VQA systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация