Unveiling Trust in Multimodal Large Language Models: Evaluation, Analysis, and Mitigation
2508.15370v1
cs.CL, cs.AI
2025-08-23
Авторы:
Yichi Zhang, Yao Huang, Yifan Wang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
Резюме на русском
#### Контекст
Появление Multimodal Large Language Models (MLLMs) стало революционным шагом в области машинного обучения. Они обладают возможностью обрабатывать и генерировать текст, изображения, звук и другие типы данных, что делает их широко применяемыми в различных сферах, от здравоохранения до робототехники. Однако, несмотря на их мощные возможности, остается актуальным вопрос о доверии к таким моделям. Этот вопрос становится еще более важным в контексте их многомодальности, которая может привести к новым рискам, таким как мошенничество, распространение зла и дискриминация. Отсутствие развернутых методов оценки и устранения этих проблем приводит к необходимости разработки новых подходов для гарантии доверия к таким моделям.
#### Метод
"MultiTrust-X" — это комплексный бенчмарк, предназначенный для оценки, анализа и устранения проблем доверия к MLLMs. Он определяет трехмерную картину доверия, включающую такие аспекты, как достоверность, устойчивость, безопасность, справедливость и конфиденциальность. Бенчмарк также включает в себя два новых риска: мультимодальные и кросс-модальные. Он предлагает широкий спектр методов устранения, касающихся данных, архитектур моделей, их обучения и интерпретации. Базируясь на этой карте, MultiTrust-X содержит 32 задачи и 28 датасетов, обеспечивая широкий спектр экспериментов с 30 различными моделями, включая как открытые, так и закрытые решения.
#### Результаты
Эксперименты показали, что MLLMs часто имеют значительные проблемы с доверием, включая риск при комбинации текста и других модальностей, и несоответствие между общими техническими возможностями и доверием. Например, модели, хорошо справляющиеся с текстовыми задачами, могут сломаться при обработке изображений или звука. Были выявлены риски, связанные с мультимодальностью, такие как распространение зла и дискриминация. Также были проанализированы влияние различных методов устранения на модели, включая добавление новых данных, изменение архитектуры и модификацию тренировочных алгоритмов. Однако многие методы не смогли эффективно решить все проблемы одновременно, а иногда даже приводили к новым ошибкам.
#### Значимость
"MultiTrust-X" может быть применен в разных сферах, где доверие к моделям критически важно, таких как здравоохранение, финансы, юриспруденция и робототехника. Он предоставляет возможность проводить глубокий анализ рисков и использовать новые методы для их устранения. Таким образом, он не только повышает ценность MLLMs, но и способствует безопасному и справедливому применению таких технологий в реа
Abstract
The trustworthiness of Multimodal Large Language Models (MLLMs) remains an
intense concern despite the significant progress in their capabilities.
Existing evaluation and mitigation approaches often focus on narrow aspects and
overlook risks introduced by the multimodality. To tackle these challenges, we
propose MultiTrust-X, a comprehensive benchmark for evaluating, analyzing, and
mitigating the trustworthiness issues of MLLMs. We define a three-dimensional
framework, encompassing five trustworthiness aspects which include
truthfulness, robustness, safety, fairness, and privacy; two novel risk types
covering multimodal risks and cross-modal impacts; and various mitigation
strategies from the perspectives of data, model architecture, training, and
inference algorithms. Based on the taxonomy, MultiTrust-X includes 32 tasks and
28 curated datasets, enabling holistic evaluations over 30 open-source and
proprietary MLLMs and in-depth analysis with 8 representative mitigation
methods. Our extensive experiments reveal significant vulnerabilities in
current models, including a gap between trustworthiness and general
capabilities, as well as the amplification of potential risks in base LLMs by
both multimodal training and inference. Moreover, our controlled analysis
uncovers key limitations in existing mitigation strategies that, while some
methods yield improvements in specific aspects, few effectively address overall
trustworthiness, and many introduce unexpected trade-offs that compromise model
utility. These findings also provide practical insights for future
improvements, such as the benefits of reasoning to better balance safety and
performance. Based on these insights, we introduce a Reasoning-Enhanced Safety
Alignment (RESA) approach that equips the model with chain-of-thought reasoning
ability to discover the underlying risks, achieving state-of-the-art results.
Ссылки и действия
Дополнительные ресурсы: