Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models

2508.04427v1 cs.LG, cs.AI 2025-08-09
Авторы:

Md Raisul Kibria, Sébastien Lafond, Janan Arslan

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимодальное обучение представляет собой передовой подход в области искусственного интеллекта, который интегрирует данные из нескольких модальностей, таких как текст, изображения, видео и звук, для решения сложных задач. В последние годы этот домен испытал значительный рост, особенно благодаря использованию моделей на основе механизма внимания, которые достигли высоких результатов в различных прикладных задачах. Однако, по мере того как эти модели становятся все более сложными, встает важный вопрос интерпретируемости их решений. Это особенно критично в приложениях, где необходима ответственность и прозрачность, например, в медицине, финансовом секторе и юридических системах. Проблема интерпретируемости становится еще более сложной в мультимодальных моделях, где взаимодействия между различными модальностями трудно понять и объяснить. Традиционные методы explainable AI (XAI), разработанные для одномодальных моделей, не всегда эффективны в мультимодальном контексте, так как не учитывают сложность взаимодействий между модальностями. Кроме того, архитектурная гетерогенность мультимодальных моделей дает дополнительные трудности для разработки универсальных методов объяснения. Недостаток стандартизированных методов оценки и отчетности в области XAI для мультимодальных моделей также представляет собой значительную проблему. Многие исследования фокусируются на конкретных приложениях или модальностях, но не предоставляют общих принципов для оценки качества объяснений. Это приводит к недостаточной прозрачности и сравнительной оценке различных подходов. Таким образом, необходимо развитие методологий, которые бы обеспечивали более систематический и консистентный подход к XAI в мультимодальных моделях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается систематический обзор литературы, охватывающий период с января 2020 года по начало 2024 года, с целью анализа состояния исследований по explainability в мультимодальных моделях. Авторы разработали методологию обзора, основанную на нескольких ключевых измерениях: архитектура моделей, используемые модальности, алгоритмы объяснения и методы оценки. Обзор включает в себя анализ различных типов моделей, включая модели vision-language и текстовые модели, которые являются наиболее часто исследуемыми в этой области. Авторы также описывают различные методы XAI, применяемые для мультимодальных моделей, включая методы основанные на внимании (attention-based), которые широко используются для визуализации и объяснения решений моделей. Кроме того, в статье рассматриваются различные подходы к оценке качества объяснений, такие как метрики корреляции с человеческим пониманием, метрики базовой точности и методы валидации на основе пользовательских исследований. Авторы выделяют проблемы, связанные с текущими методами оценки, в том числе недостаточную учету контекстуальных и когнитивных факторов, специфических для каждой модальности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках систематического обзора авторы провели мета-анализ результатов исследований, опубликованных в указанном временном диапазоне. Результаты показывают, что большинство исследований сосредоточено на моделях vision-language, где визуальные и текстовые модальности широко используются. Методы на основе внимания являются наиболее популярными для объяснения решений моделей, однако они часто ограничены в своей способности захватывать полный спектр взаимодействий между модальностями. Авторы также обнаружили, что методы оценки XAI в мультимодальных моделях являются недостаточно систематичными и часто не учитывают специфику каждой модальности. Например, некоторые методы могут быть эффективными для текстовых данных, но не подходят для визуальных данных. Это приводит к несогласованности в оценке качества объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Статья имеет значительное практическое значение для разработчиков и исследователей мультимодальных моделей. Она подчеркивает важность создания более прозрачных и интерпретируемых моделей, которые могут быть использованы в критически важных приложениях, таких как медицина, юриспруденция и финансы. Развитие стандартизированных методов оценки XAI может повысить доверие к мультимодальным моделям и обеспечить более ответственное их использование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение авторы предлагают набор рекомендаций для улучшения исследований в области XAI для мультимодальных моделей. Они подчеркивают необходимость разработки более консистентных и стандартизированных методов оценки, которые учитывали бы специфику каждой модальности. Также предлагается расширение исследований на более широкий спектр модальностей и архитектур моделей. Будущие исследования могут фокусироваться на создании более гибких и универсальных методов объяснения, которые будут эффективны в различных доменах применения.

Abstract

Multimodal learning has witnessed remarkable advancements in recent years, particularly with the integration of attention-based models, leading to significant performance gains across a variety of tasks. Parallel to this progress, the demand for explainable artificial intelligence (XAI) has spurred a growing body of research aimed at interpreting the complex decision-making processes of these models. This systematic literature review analyzes research published between January 2020 and early 2024 that focuses on the explainability of multimodal models. Framed within the broader goals of XAI, we examine the literature across multiple dimensions, including model architecture, modalities involved, explanation algorithms and evaluation methodologies. Our analysis reveals that the majority of studies are concentrated on vision-language and language-only models, with attention-based techniques being the most commonly employed for explanation. However, these methods often fall short in capturing the full spectrum of interactions between modalities, a challenge further compounded by the architectural heterogeneity across domains. Importantly, we find that evaluation methods for XAI in multimodal settings are largely non-systematic, lacking consistency, robustness, and consideration for modality-specific cognitive and contextual factors. Based on these findings, we provide a comprehensive set of recommendations aimed at promoting rigorous, transparent, and standardized evaluation and reporting practices in multimodal XAI research. Our goal is to support future research in more interpretable, accountable, and responsible mulitmodal AI systems, with explainability at their core.

Ссылки и действия