ConfProBench: A Confidence Evaluation Benchmark for MLLM-Based Process Judges
2508.04576v1
cs.AI, I.2.6; I.2.7; D.2.8
2025-08-08
Авторы:
Yue Zhou, Yi Chang, Yuan Wu
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Многошаговое рассуждение становится краеугольным камнем современных мультимодальных больших языковых моделей (MLLM), позволяя им решать задачи, где требуется комплексное понимание текста, изображений и их взаимосвязи. Типичные сценарии включают математические задачи с диаграммами, научную визуализацию с пояснениями или геометрические доказательства, где корректность каждого промежуточного вывода напрямую влияет на финальный результат. В этой связи MLLM-based Process Judges (MPJ) — специализированные модели-оценщики, которые анализируют корректность отдельных шагов мультимодального рассуждения — приобретают критическую важность: они используются для фильтрации ошибочных цепочек, обучения через обратную связь и построения более надёжных систем.
Однако существующие бенчмарки для оценки MPJ фокусируются в основном на бинарной классификации «правильно / неправильно» и на поиске наилучшей последовательности шагов. Тем самым игнорируется ключевой фактор, без которого невозможно реальное доверие к системе: насколько само доверительное значение (confidence score), выдаваемое MPJ для каждого конкретного шага, действительно отражает вероятность его корректности. Надёжность этих цифровых оценок важна для принятия решений в высокостоимостных сценариях: в медицинской диагностике по анализам изображений, в автоматизированном проектировании или в образовательных системах, где ученику выдаётся обратная связь на каждом шаге решения.
Более того, предыдущие работы не изучали устойчивость доверительных оценок к семантически эквивалентным, но формально отличающимся формулировкам шагов, что делает невозможным понять, зависит ли уверенность модели от поверхностных признаков текста или от действительно глубинного понимания задачи. Отсутствие единого стандарта измерения надёжности confidence затрудняет сравнение разных архитектур и тормозит развитие более точных и устойчивых MPJ.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для систематического измерения надёжности доверительных оценок авторы создают ConfProBench — первый бенчмарк, целенаправленно исследующий устойчивость, чувствительность и калибровку confidence на уровне отдельных шагов мультимодального рассуждения. Бенчмарк состоит из трёх компонентов: генерации адверсариальных вариантов шагов, набора метрик и протокола оценки.
Генерация адверсариальных шагов реализована тремя методами. (1) Synonym Substitution: замена ключевых терминов и чисел на семантически близкие синонимы без изменения логики (например, «добавить 5 см» → «увеличить на пять сантиметров»). (2) Syntactic Transformation: перестановка слов, актив/пассив, изменение порядка придаточных, сохраняющая смысл («если A, то B» → «B следует из A»). (3) Image Perturbation: визуальные искажения, такие как гауссов шум, повороты, изменение яркости, которые не затрагивают решающие визуальные признаки (линии, углы, измерения). Для каждого исходного корректного шага строится до 10 модификаций, что позволяет измерить, насколько уверенность MPJ колеблется при эквивалентных формулировках.
Введены три новые метрики. Confidence Robustness Score (CRS) измеряет, насколько мало меняется оценка уверенности при внесении допустимых возмущений: чем меньше дисперсия, тем выше устойчивость. Confidence Sensitivity Score (CSS), наоборот, фиксирует способность модели заметно реагировать на принципиально важные изменения (например, если шаг становится некорректным). Confidence Calibration Score (CCS) оценивает соответствие между предсказанной вероятностью и фактической частотой корректных шагов; отклонение калибровки вычисляется через ECE (Expected Calibration Error) по бинам уверенности. Все метрики нормированы к диапазону [0,100], где 100 означает идеальное поведение.
Оценочный протокол включает два этапа. На первом MPJ получает исходный процесс, состоящий из 3-8 шагов, и выдаёт для каждого confidence. На втором те же процессы подвергаются адверсариальным возмущениям, и процедура повторяется. В итоге вычисляются CRS, CSS и CCS для каждой модели на каждом типе возмущения. Для снижения стоимости вычислений используется стратегия
Abstract
Reasoning is a critical capability of multimodal large language models
(MLLMs) for solving complex multimodal tasks, and judging the correctness of
reasoning steps is crucial for improving this capability. Recently, MLLM-based
process judges (MPJs) have been widely used to assess the correctness of
reasoning steps in multimodal tasks. Therefore, evaluating MPJs is important
for identifying their limitations and guiding future improvements. However,
existing benchmarks for MPJs mainly focus on tasks such as step correctness
classification and reasoning process search, while overlooking a key aspect:
whether the confidence scores produced by MPJs at the step level are reliable.
To address this gap, we propose ConfProBench, the first comprehensive benchmark
designed to systematically evaluate the reliability of step-level confidence
scores generated by MPJs. Our benchmark constructs three types of adversarially
perturbed reasoning steps: Synonym Substitution, Syntactic Transformation, and
Image Perturbation, to test the robustness of MPJ confidence under
perturbations. In addition, we introduce three novel evaluation metrics:
Confidence Robustness Score (CRS), Confidence Sensitivity Score (CSS), and
Confidence Calibration Score (CCS), which evaluate robustness, sensitivity, and
calibration, respectively. We evaluate 14 state-of-the-art MLLMs, including
both proprietary and open-source models. Experiments reveal limitations in
current MPJs' confidence performance and offer competitive baselines to support
future research.