Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation

2508.15370v1 cs.CL, cs.AI 2025-08-23
Авторы:

Yichi Zhang, Yao Huang, Yifan Wang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

Резюме на русском

#### Контекст Появление Multimodal Large Language Models (MLLMs) стало революционным шагом в области машинного обучения. Они обладают возможностью обрабатывать и генерировать текст, изображения, звук и другие типы данных, что делает их широко применяемыми в различных сферах, от здравоохранения до робототехники. Однако, несмотря на их мощные возможности, остается актуальным вопрос о доверии к таким моделям. Этот вопрос становится еще более важным в контексте их многомодальности, которая может привести к новым рискам, таким как мошенничество, распространение зла и дискриминация. Отсутствие развернутых методов оценки и устранения этих проблем приводит к необходимости разработки новых подходов для гарантии доверия к таким моделям. #### Метод "MultiTrust-X" — это комплексный бенчмарк, предназначенный для оценки, анализа и устранения проблем доверия к MLLMs. Он определяет трехмерную картину доверия, включающую такие аспекты, как достоверность, устойчивость, безопасность, справедливость и конфиденциальность. Бенчмарк также включает в себя два новых риска: мультимодальные и кросс-модальные. Он предлагает широкий спектр методов устранения, касающихся данных, архитектур моделей, их обучения и интерпретации. Базируясь на этой карте, MultiTrust-X содержит 32 задачи и 28 датасетов, обеспечивая широкий спектр экспериментов с 30 различными моделями, включая как открытые, так и закрытые решения. #### Результаты Эксперименты показали, что MLLMs часто имеют значительные проблемы с доверием, включая риск при комбинации текста и других модальностей, и несоответствие между общими техническими возможностями и доверием. Например, модели, хорошо справляющиеся с текстовыми задачами, могут сломаться при обработке изображений или звука. Были выявлены риски, связанные с мультимодальностью, такие как распространение зла и дискриминация. Также были проанализированы влияние различных методов устранения на модели, включая добавление новых данных, изменение архитектуры и модификацию тренировочных алгоритмов. Однако многие методы не смогли эффективно решить все проблемы одновременно, а иногда даже приводили к новым ошибкам. #### Значимость "MultiTrust-X" может быть применен в разных сферах, где доверие к моделям критически важно, таких как здравоохранение, финансы, юриспруденция и робототехника. Он предоставляет возможность проводить глубокий анализ рисков и использовать новые методы для их устранения. Таким образом, он не только повышает ценность MLLMs, но и способствует безопасному и справедливому применению таких технологий в реа

Abstract

The trustworthiness of Multimodal Large Language Models (MLLMs) remains an intense concern despite the significant progress in their capabilities. Existing evaluation and mitigation approaches often focus on narrow aspects and overlook risks introduced by the multimodality. To tackle these challenges, we propose MultiTrust-X, a comprehensive benchmark for evaluating, analyzing, and mitigating the trustworthiness issues of MLLMs. We define a three-dimensional framework, encompassing five trustworthiness aspects which include truthfulness, robustness, safety, fairness, and privacy; two novel risk types covering multimodal risks and cross-modal impacts; and various mitigation strategies from the perspectives of data, model architecture, training, and inference algorithms. Based on the taxonomy, MultiTrust-X includes 32 tasks and 28 curated datasets, enabling holistic evaluations over 30 open-source and proprietary MLLMs and in-depth analysis with 8 representative mitigation methods. Our extensive experiments reveal significant vulnerabilities in current models, including a gap between trustworthiness and general capabilities, as well as the amplification of potential risks in base LLMs by both multimodal training and inference. Moreover, our controlled analysis uncovers key limitations in existing mitigation strategies that, while some methods yield improvements in specific aspects, few effectively address overall trustworthiness, and many introduce unexpected trade-offs that compromise model utility. These findings also provide practical insights for future improvements, such as the benefits of reasoning to better balance safety and performance. Based on these insights, we introduce a Reasoning-Enhanced Safety Alignment (RESA) approach that equips the model with chain-of-thought reasoning ability to discover the underlying risks, achieving state-of-the-art results.

Ссылки и действия