ConfProBench: A Confidence Evaluation Benchmark for MLLM-Based Process Judges

2508.04576v1 cs.AI, I.2.6; I.2.7; D.2.8 2025-08-08
Авторы:

Yue Zhou, Yi Chang, Yuan Wu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многошаговое рассуждение становится краеугольным камнем современных мультимодальных больших языковых моделей (MLLM), позволяя им решать задачи, где требуется комплексное понимание текста, изображений и их взаимосвязи. Типичные сценарии включают математические задачи с диаграммами, научную визуализацию с пояснениями или геометрические доказательства, где корректность каждого промежуточного вывода напрямую влияет на финальный результат. В этой связи MLLM-based Process Judges (MPJ) — специализированные модели-оценщики, которые анализируют корректность отдельных шагов мультимодального рассуждения — приобретают критическую важность: они используются для фильтрации ошибочных цепочек, обучения через обратную связь и построения более надёжных систем. Однако существующие бенчмарки для оценки MPJ фокусируются в основном на бинарной классификации «правильно / неправильно» и на поиске наилучшей последовательности шагов. Тем самым игнорируется ключевой фактор, без которого невозможно реальное доверие к системе: насколько само доверительное значение (confidence score), выдаваемое MPJ для каждого конкретного шага, действительно отражает вероятность его корректности. Надёжность этих цифровых оценок важна для принятия решений в высокостоимостных сценариях: в медицинской диагностике по анализам изображений, в автоматизированном проектировании или в образовательных системах, где ученику выдаётся обратная связь на каждом шаге решения. Более того, предыдущие работы не изучали устойчивость доверительных оценок к семантически эквивалентным, но формально отличающимся формулировкам шагов, что делает невозможным понять, зависит ли уверенность модели от поверхностных признаков текста или от действительно глубинного понимания задачи. Отсутствие единого стандарта измерения надёжности confidence затрудняет сравнение разных архитектур и тормозит развитие более точных и устойчивых MPJ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического измерения надёжности доверительных оценок авторы создают ConfProBench — первый бенчмарк, целенаправленно исследующий устойчивость, чувствительность и калибровку confidence на уровне отдельных шагов мультимодального рассуждения. Бенчмарк состоит из трёх компонентов: генерации адверсариальных вариантов шагов, набора метрик и протокола оценки. Генерация адверсариальных шагов реализована тремя методами. (1) Synonym Substitution: замена ключевых терминов и чисел на семантически близкие синонимы без изменения логики (например, «добавить 5 см» → «увеличить на пять сантиметров»). (2) Syntactic Transformation: перестановка слов, актив/пассив, изменение порядка придаточных, сохраняющая смысл («если A, то B» → «B следует из A»). (3) Image Perturbation: визуальные искажения, такие как гауссов шум, повороты, изменение яркости, которые не затрагивают решающие визуальные признаки (линии, углы, измерения). Для каждого исходного корректного шага строится до 10 модификаций, что позволяет измерить, насколько уверенность MPJ колеблется при эквивалентных формулировках. Введены три новые метрики. Confidence Robustness Score (CRS) измеряет, насколько мало меняется оценка уверенности при внесении допустимых возмущений: чем меньше дисперсия, тем выше устойчивость. Confidence Sensitivity Score (CSS), наоборот, фиксирует способность модели заметно реагировать на принципиально важные изменения (например, если шаг становится некорректным). Confidence Calibration Score (CCS) оценивает соответствие между предсказанной вероятностью и фактической частотой корректных шагов; отклонение калибровки вычисляется через ECE (Expected Calibration Error) по бинам уверенности. Все метрики нормированы к диапазону [0,100], где 100 означает идеальное поведение. Оценочный протокол включает два этапа. На первом MPJ получает исходный процесс, состоящий из 3-8 шагов, и выдаёт для каждого confidence. На втором те же процессы подвергаются адверсариальным возмущениям, и процедура повторяется. В итоге вычисляются CRS, CSS и CCS для каждой модели на каждом типе возмущения. Для снижения стоимости вычислений используется стратегия

Abstract

Reasoning is a critical capability of multimodal large language models (MLLMs) for solving complex multimodal tasks, and judging the correctness of reasoning steps is crucial for improving this capability. Recently, MLLM-based process judges (MPJs) have been widely used to assess the correctness of reasoning steps in multimodal tasks. Therefore, evaluating MPJs is important for identifying their limitations and guiding future improvements. However, existing benchmarks for MPJs mainly focus on tasks such as step correctness classification and reasoning process search, while overlooking a key aspect: whether the confidence scores produced by MPJs at the step level are reliable. To address this gap, we propose ConfProBench, the first comprehensive benchmark designed to systematically evaluate the reliability of step-level confidence scores generated by MPJs. Our benchmark constructs three types of adversarially perturbed reasoning steps: Synonym Substitution, Syntactic Transformation, and Image Perturbation, to test the robustness of MPJ confidence under perturbations. In addition, we introduce three novel evaluation metrics: Confidence Robustness Score (CRS), Confidence Sensitivity Score (CSS), and Confidence Calibration Score (CCS), which evaluate robustness, sensitivity, and calibration, respectively. We evaluate 14 state-of-the-art MLLMs, including both proprietary and open-source models. Experiments reveal limitations in current MPJs' confidence performance and offer competitive baselines to support future research.

Ссылки и действия