FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs

2509.16648v1 cs.AI, cs.CL, cs.LG 2025-09-24
Авторы:

Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy

Резюме на русском

## Контекст Многомодальные большие языковые модели (MLLMs) становятся все более популярными для выполнения задач, включая визуальную и аудиовыводную рассуждения. Однако их надежность и достоверность часто остаются недостаточно хорошо оцененными. Это приводит к усилиям развития методов для эффективного и точного ассимилирования их надежности. Такая необходимость возникает в различных практических областях, включая медицинское применение, финансовые системы и интеллектуальные системы управления. Без надежной оценки надежности, пользователи могут иметь трудности в различении правильных ответов от ошибочных, что снижает доверие к модели и ее применяемость в реальных сценариях. Наша мотивация заключается в разработке метода, который позволит обеспечить стабильность и достоверность MLLMs, чтобы пользователи могли быть уверены в корректности полученных ответов. ## Метод Мы предлагаем **Functionally Equivalent Sampling for Trust Assessment (FESTA)**, новую методику для оценки надежности многомодальных моделей. Метод основывается на выборке функционально эквивалентных и комплементарных входных данных для обогащения пространства входов и повышения удостоверенности модели. Мы применяем **безучилийный (black-box)** подход, что означает, что модель доступна только через входные данные и выходные результаты, без доступа к значениям правдивости. FESTA расширяет пространство возможных входов модели, решая проблему недостаточного включения потенциально важных сценариев для тестирования. Мы использовали **техники уровня машины (machine-in-the-loop)** для точного проверки уверенности модели в ситуациях риска. Наши эксперименты были проведены на различных моделях с разными видом входных данных, включая визуальные и аудиовыводные задачи. ## Результаты Мы проводили эксперименты с несколькими важными моделями многомодального вывода, включая обученные модели для рассуждения визуального и аудиовывода. Наши результаты показали, что FESTA позволяет значительно улучшить детекцию неверных ответов (mispredictions) в сравнении с другими методами. Мы измерили его эффективность с помощью метрики **Area Under Receiver Operating Characteristic Curve (AUROC)**, получив улучшение в **33.3% для визуальных моделей** и **29.6% для аудиовывода**. Эти результаты доказывают, что FESTA не только повышает надежность моделей, но и позволяет им более точно определять их ограничения. ## Значимость Метод FESTA может применяться во многих практических областях, где надежность и достоверность моделей являются критичными. Например, в сфере здравоохранения, модели могут использоваться для критически важных решений, в финансовых системах, для выявления мошенничества, и в интеллектуальных системах управления. Наше решение позволяет **улучшить пользо

Abstract

The accurate trust assessment of multimodal large language models (MLLMs) generated predictions, which can enable selective prediction and improve user confidence, is challenging due to the diverse multi-modal input paradigms. We propose Functionally Equivalent Sampling for Trust Assessment (FESTA), a multimodal input sampling technique for MLLMs, that generates an uncertainty measure based on the equivalent and complementary input samplings. The proposed task-preserving sampling approach for uncertainty quantification expands the input space to probe the consistency (through equivalent samples) and sensitivity (through complementary samples) of the model. FESTA uses only input-output access of the model (black-box), and does not require ground truth (unsupervised). The experiments are conducted with various off-the-shelf multi-modal LLMs, on both visual and audio reasoning tasks. The proposed FESTA uncertainty estimate achieves significant improvement (33.3% relative improvement for vision-LLMs and 29.6% relative improvement for audio-LLMs) in selective prediction performance, based on area-under-receiver-operating-characteristic curve (AUROC) metric in detecting mispredictions. The code implementation is open-sourced.

Ссылки и действия