FESTA: Functionally Equivalent Sampling for Trust Assessment of Multimodal LLMs
2509.16648v1
cs.AI, cs.CL, cs.LG
2025-09-24
Авторы:
Debarpan Bhattacharya, Apoorva Kulkarni, Sriram Ganapathy
Резюме на русском
## Контекст
Многомодальные большие языковые модели (MLLMs) становятся все более популярными для выполнения задач, включая визуальную и аудиовыводную рассуждения. Однако их надежность и достоверность часто остаются недостаточно хорошо оцененными. Это приводит к усилиям развития методов для эффективного и точного ассимилирования их надежности. Такая необходимость возникает в различных практических областях, включая медицинское применение, финансовые системы и интеллектуальные системы управления. Без надежной оценки надежности, пользователи могут иметь трудности в различении правильных ответов от ошибочных, что снижает доверие к модели и ее применяемость в реальных сценариях. Наша мотивация заключается в разработке метода, который позволит обеспечить стабильность и достоверность MLLMs, чтобы пользователи могли быть уверены в корректности полученных ответов.
## Метод
Мы предлагаем **Functionally Equivalent Sampling for Trust Assessment (FESTA)**, новую методику для оценки надежности многомодальных моделей. Метод основывается на выборке функционально эквивалентных и комплементарных входных данных для обогащения пространства входов и повышения удостоверенности модели. Мы применяем **безучилийный (black-box)** подход, что означает, что модель доступна только через входные данные и выходные результаты, без доступа к значениям правдивости. FESTA расширяет пространство возможных входов модели, решая проблему недостаточного включения потенциально важных сценариев для тестирования. Мы использовали **техники уровня машины (machine-in-the-loop)** для точного проверки уверенности модели в ситуациях риска. Наши эксперименты были проведены на различных моделях с разными видом входных данных, включая визуальные и аудиовыводные задачи.
## Результаты
Мы проводили эксперименты с несколькими важными моделями многомодального вывода, включая обученные модели для рассуждения визуального и аудиовывода. Наши результаты показали, что FESTA позволяет значительно улучшить детекцию неверных ответов (mispredictions) в сравнении с другими методами. Мы измерили его эффективность с помощью метрики **Area Under Receiver Operating Characteristic Curve (AUROC)**, получив улучшение в **33.3% для визуальных моделей** и **29.6% для аудиовывода**. Эти результаты доказывают, что FESTA не только повышает надежность моделей, но и позволяет им более точно определять их ограничения.
## Значимость
Метод FESTA может применяться во многих практических областях, где надежность и достоверность моделей являются критичными. Например, в сфере здравоохранения, модели могут использоваться для критически важных решений, в финансовых системах, для выявления мошенничества, и в интеллектуальных системах управления. Наше решение позволяет **улучшить пользо
Abstract
The accurate trust assessment of multimodal large language models (MLLMs)
generated predictions, which can enable selective prediction and improve user
confidence, is challenging due to the diverse multi-modal input paradigms. We
propose Functionally Equivalent Sampling for Trust Assessment (FESTA), a
multimodal input sampling technique for MLLMs, that generates an uncertainty
measure based on the equivalent and complementary input samplings. The proposed
task-preserving sampling approach for uncertainty quantification expands the
input space to probe the consistency (through equivalent samples) and
sensitivity (through complementary samples) of the model. FESTA uses only
input-output access of the model (black-box), and does not require ground truth
(unsupervised). The experiments are conducted with various off-the-shelf
multi-modal LLMs, on both visual and audio reasoning tasks. The proposed FESTA
uncertainty estimate achieves significant improvement (33.3% relative
improvement for vision-LLMs and 29.6% relative improvement for audio-LLMs) in
selective prediction performance, based on
area-under-receiver-operating-characteristic curve (AUROC) metric in detecting
mispredictions. The code implementation is open-sourced.
Ссылки и действия
Дополнительные ресурсы: