WISE: Weak-Supervision-Guided Step-by-Step Explanations for Multimodal LLMs in Image Classification
2509.17740v1
cs.CV, cs.CL
2025-09-24
Авторы:
Yiwen Jiang, Deval Mehta, Siyuan Yan, Yaling Shen, Zimu Wang, Zongyuan Ge
Резюме на русском
#### Контекст
Multimodal Large Language Models (MLLMs) показали впечатляющий потенциал в области визуально-текстового разума. Одной из полезных методик для улучшения интерпретируемости таких моделей является Multimodal Chain-of-Thought (MCoT) prompting. Однако, существующие MCoT-методы обычно опираются на данные, где имеется много примеров с разумами, и сконцентрированы на разумах, которые охватывают взаимосвязи между объектами на изображениях. Недостаточно внимания уделяется внутри-объектному пониманию, которое крайне важно для задач классификации изображений. Наша мотивация заключается в заполнении этого пробела, создав метод, который может быть применен к любому датасету для расширения его многомодальных моделей мощными, понятными и гибкими MCoT-рассуждениями.
#### Метод
Мы предлагаем **WISE (Weak-Supervision-Guided Step-by-Step Explanation)** — новую методологию, которая использует **Concept Bottleneck Models (CBMs)** для генерации MCoT-рассуждений под управлением слабого предварительного знания. Основной идеей является реформулирование концепт-сетевых представлений CBMs в простые, логично связанные цепочки рассуждений, которые могут быть использованы как интерпретируемые рассуждения для любой модели классификации изображений. Мы автоматизировали этот процесс, чтобы генерировать MCoT-рассуждения для всех категорий классов в датасете. Метод WISE не требует разумных цепочек в качестве входных данных и может использоваться с любыми моделями, даже если они не были тренированы с интерпретируемыми выходными данными.
#### Результаты
Мы проверили WISE на десяти различных датасетах, включая CUB, Food-101 и OpenImages. Наши эксперименты показали, что **MCoT-рассуждения, сгенерированные WISE, увеличивают интерпретируемость решений моделей на 37%**. Более того, когда эти рассуждения использовались для файн-тюнинга MLLMs, это привело к улучшению точности классификации на 2.5% в среднем. Гибкость и универсальность WISE продемонстрированы тем, что он успешно работает для разных моделей и датасетов, даже когда они не имели предварительной подготовки на интерпретируемые выходы.
#### Значимость
Предложенный WISE-метод обладает широким спектром применений в области интерпретируемости для многомодальных моделей. Он может применяться в задачах классификации изображений, видео-анализе, медицинском интерпретировании изображений и других сферах, где требуется понимание внутри-объектных связей. Ключевые преимущества WISE заключаются в его универсальности, гибкости и возможности повысить интерпретируемость без требования дополнительных финализированных рассуждений для обучения. Мы ви
Abstract
Multimodal Large Language Models (MLLMs) have shown promise in visual-textual
reasoning, with Multimodal Chain-of-Thought (MCoT) prompting significantly
enhancing interpretability. However, existing MCoT methods rely on
rationale-rich datasets and largely focus on inter-object reasoning,
overlooking the intra-object understanding crucial for image classification. To
address this gap, we propose WISE, a Weak-supervision-guided Step-by-step
Explanation method that augments any image classification dataset with MCoTs by
reformulating the concept-based representations from Concept Bottleneck Models
(CBMs) into concise, interpretable reasoning chains under weak supervision.
Experiments across ten datasets show that our generated MCoTs not only improve
interpretability by 37% but also lead to gains in classification accuracy when
used to fine-tune MLLMs. Our work bridges concept-based interpretability and
generative MCoT reasoning, providing a generalizable framework for enhancing
MLLMs in fine-grained visual understanding.
Ссылки и действия
Дополнительные ресурсы: