WISE: Weak-Supervision-Guided Step-by-Step Explanations for Multimodal LLMs in Image Classification

2509.17740v1 cs.CV, cs.CL 2025-09-24

Авторы:

Yiwen Jiang, Deval Mehta, Siyuan Yan, Yaling Shen, Zimu Wang, Zongyuan Ge

Резюме на русском

#### Контекст Multimodal Large Language Models (MLLMs) показали впечатляющий потенциал в области визуально-текстового разума. Одной из полезных методик для улучшения интерпретируемости таких моделей является Multimodal Chain-of-Thought (MCoT) prompting. Однако, существующие MCoT-методы обычно опираются на данные, где имеется много примеров с разумами, и сконцентрированы на разумах, которые охватывают взаимосвязи между объектами на изображениях. Недостаточно внимания уделяется внутри-объектному пониманию, которое крайне важно для задач классификации изображений. Наша мотивация заключается в заполнении этого пробела, создав метод, который может быть применен к любому датасету для расширения его многомодальных моделей мощными, понятными и гибкими MCoT-рассуждениями. #### Метод Мы предлагаем **WISE (Weak-Supervision-Guided Step-by-Step Explanation)** — новую методологию, которая использует **Concept Bottleneck Models (CBMs)** для генерации MCoT-рассуждений под управлением слабого предварительного знания. Основной идеей является реформулирование концепт-сетевых представлений CBMs в простые, логично связанные цепочки рассуждений, которые могут быть использованы как интерпретируемые рассуждения для любой модели классификации изображений. Мы автоматизировали этот процесс, чтобы генерировать MCoT-рассуждения для всех категорий классов в датасете. Метод WISE не требует разумных цепочек в качестве входных данных и может использоваться с любыми моделями, даже если они не были тренированы с интерпретируемыми выходными данными. #### Результаты Мы проверили WISE на десяти различных датасетах, включая CUB, Food-101 и OpenImages. Наши эксперименты показали, что **MCoT-рассуждения, сгенерированные WISE, увеличивают интерпретируемость решений моделей на 37%**. Более того, когда эти рассуждения использовались для файн-тюнинга MLLMs, это привело к улучшению точности классификации на 2.5% в среднем. Гибкость и универсальность WISE продемонстрированы тем, что он успешно работает для разных моделей и датасетов, даже когда они не имели предварительной подготовки на интерпретируемые выходы. #### Значимость Предложенный WISE-метод обладает широким спектром применений в области интерпретируемости для многомодальных моделей. Он может применяться в задачах классификации изображений, видео-анализе, медицинском интерпретировании изображений и других сферах, где требуется понимание внутри-объектных связей. Ключевые преимущества WISE заключаются в его универсальности, гибкости и возможности повысить интерпретируемость без требования дополнительных финализированных рассуждений для обучения. Мы ви

Abstract

Multimodal Large Language Models (MLLMs) have shown promise in visual-textual reasoning, with Multimodal Chain-of-Thought (MCoT) prompting significantly enhancing interpretability. However, existing MCoT methods rely on rationale-rich datasets and largely focus on inter-object reasoning, overlooking the intra-object understanding crucial for image classification. To address this gap, we propose WISE, a Weak-supervision-guided Step-by-step Explanation method that augments any image classification dataset with MCoTs by reformulating the concept-based representations from Concept Bottleneck Models (CBMs) into concise, interpretable reasoning chains under weak supervision. Experiments across ten datasets show that our generated MCoTs not only improve interpretability by 37% but also lead to gains in classification accuracy when used to fine-tune MLLMs. Our work bridges concept-based interpretability and generative MCoT reasoning, providing a generalizable framework for enhancing MLLMs in fine-grained visual understanding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

WISE: Weak-Supervision-Guided Step-by-Step Explanations for Multimodal LLMs in Image Classification

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация