A Novel Framework for Automated Explain Vision Model Using Vision-Language Models
2508.20227v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-08-30
Авторы:
Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy
Резюме на русском
## Контекст
Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений.
## Метод
Предлагаемая пайплайн-архитектура включает в себя несколько этапов:
1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями.
2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах.
3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу.
4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели.
5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях.
## Результаты
Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз
Abstract
The development of many vision models mainly focuses on improving their
performance using metrics such as accuracy, IoU, and mAP, with less attention
to explainability due to the complexity of applying xAI methods to provide a
meaningful explanation of trained models. Although many existing xAI methods
aim to explain vision models sample-by-sample, methods explaining the general
behavior of vision models, which can only be captured after running on a large
dataset, are still underexplored. Furthermore, understanding the behavior of
vision models on general images can be very important to prevent biased
judgments and help identify the model's trends and patterns. With the
application of Vision-Language Models, this paper proposes a pipeline to
explain vision models at both the sample and dataset levels. The proposed
pipeline can be used to discover failure cases and gain insights into vision
models with minimal effort, thereby integrating vision model development with
xAI analysis to advance image analysis.