A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

Резюме на русском

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Abstract

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furthermore, understanding the behavior of vision models on general images can be very important to prevent biased judgments and help identify the model's trends and patterns. With the application of Vision-Language Models, this paper proposes a pipeline to explain vision models at both the sample and dataset levels. The proposed pipeline can be used to discover failure cases and gain insights into vision models with minimal effort, thereby integrating vision model development with xAI analysis to advance image analysis.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация