Promptception: How Sensitive Are Large Multimodal Models to Prompts?
2509.03986v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-09-06
Авторы:
Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan
Резюме на русском
## Контекст
В последние годы Large Multimodal Models (LMMs) показали выдающиеся результаты в области многомодального понимания и вывода. Однако, дизайн инструкций (prompts) для LMMs в задачах Multiple-Choice Question Answering (MCQA) остается значительной недоработкой. Исследования показывают, что даже незначительные изменения в формулировке и структуре инструкций могут привести к существенным отклонениям в точности решения задач — до 15%. Это выносит в угрозу честность и транспарентность оценки LMM, так как модели часто отчётливо показывают свои лучшие результаты, оптимизировав инструкции. Для снятия этой проблемы мы предлагаем Promptception — новую систематическую модель для оценки чувствительности LMM к инструкциям.
## Метод
Promptception представляет собой развитый фреймворк, включающий 61 типа инструкций, разделенных на 15 категорий и 6 суперкатегорий. Каждая категория нацелена на конкретный аспект формулировки инструкций. Мы использовали этот фреймворк для оценки точности 10 LMMs, включая опенсорсные модели и самые современные проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Эксперименты проводились на трёх бенчмарках MCQA: MMStar, MMMU-Pro и MVBench. Это позволило нам выявить различия в чувствительности к инструкциям между моделями, а также выявить специфику работы проприетарных и опенсорсных моделей.
## Результаты
Наши результаты показали, что проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro, чувствительнее к тонкостям формулировки инструкций, что свидетельствует о более глубокой инструкционной алигнентах. Отклонения в их результатах достигают 15%. Опенсорсные модели, такие как LLaMA и Falcon, показали более стабильные, но менее точные результаты при сложном дизайне инструкций. Мы также выявили, что чувствительность к формулировке сильно зависит от типа задачи и модели, что подтверждает необходимость развития специальных принципов дизайна инструкций для различных моделей.
## Значимость
Результаты Promptception имеют высокую значимость для разработчиков и отрасли AI в целом. Наша работа подчёркивает важность тщательной оценки инструкций для достижения честных и транспарентных результатов в экспериментах с LMM. Мы предлагаем Prompting Principles, которые могут помочь улучшить честность экспериментов и сделать результаты более сравнимыми. Эти находки могут быть применены в области обучения с подкреплением, видеоанализа, мультимодального понимания и других многомодальных задачах.
## Выводы
Мы показали, что Promptception даёт новые возможности для понимания и оценки чувствительности LMM к инструкциям. Наши результаты подтверждают, что чувствительность к формулировке инструкций может в
Abstract
Despite the success of Large Multimodal Models (LMMs) in recent years, prompt
design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly
understood. We show that even minor variations in prompt phrasing and structure
can lead to accuracy deviations of up to 15% for certain prompts and models.
This variability poses a challenge for transparent and fair LMM evaluation, as
models often report their best-case performance using carefully selected
prompts. To address this, we introduce Promptception, a systematic framework
for evaluating prompt sensitivity in LMMs. It consists of 61 prompt types,
spanning 15 categories and 6 supercategories, each targeting specific aspects
of prompt formulation, and is used to evaluate 10 LMMs ranging from lightweight
open-source models to GPT-4o and Gemini 1.5 Pro, across 3 MCQA benchmarks:
MMStar, MMMU-Pro, MVBench. Our findings reveal that proprietary models exhibit
greater sensitivity to prompt phrasing, reflecting tighter alignment with
instruction semantics, while open-source models are steadier but struggle with
nuanced and complex phrasing. Based on this analysis, we propose Prompting
Principles tailored to proprietary and open-source LMMs, enabling more robust
and fair model evaluation.