📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ConfProBench: A Confidence Evaluation Benchmark for MLLM-Based Process Judges

2025-08-08

Авторы:

Yue Zhou, Yi Chang, Yuan Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многошаговое рассуждение становится краеугольным камнем современных мультимодальных больших языковых моделей (MLLM), позволяя им решать задачи, где требуется комплексное понимание текста, изображений и их взаимосвязи. Типичные сценарии включают математические задачи с диаграммами, научную визуализацию с пояснениями или геометрические доказательства, где корректность каждого промежуточного вывода напрямую влияет на финальный результат. В этой связи MLLM-based Process Judges (MPJ) — специализированные модели-оценщики, которые анализируют корректность отдельных шагов мультимодального рассуждения — приобретают критическую важность: они используются для фильтрации ошибочных цепочек, обучения через обратную связь и построения более надёжных систем. Однако существующие бенчмарки для оценки MPJ фокусируются в основном на бинарной классификации «правильно / неправильно» и на поиске наилучшей последовательности шагов. Тем самым игнорируется ключевой фактор, без которого невозможно реальное доверие к системе: насколько само доверительное значение (confidence score), выдаваемое MPJ для каждого конкретного шага, действительно отражает вероятность его корректности. Надёжность этих цифровых оценок важна для принятия решений в высокостоимостных сценариях: в медицинской диагностике по анализам изображений, в автоматизированном проектировании или в образовательных системах, где ученику выдаётся обратная связь на каждом шаге решения. Более того, предыдущие работы не изучали устойчивость доверительных оценок к семантически эквивалентным, но формально отличающимся формулировкам шагов, что делает невозможным понять, зависит ли уверенность модели от поверхностных признаков текста или от действительно глубинного понимания задачи. Отсутствие единого стандарта измерения надёжности confidence затрудняет сравнение разных архитектур и тормозит развитие более точных и устойчивых MPJ. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического измерения надёжности доверительных оценок авторы создают ConfProBench — первый бенчмарк, целенаправленно исследующий устойчивость, чувствительность и калибровку confidence на уровне отдельных шагов мультимодального рассуждения. Бенчмарк состоит из трёх компонентов: генерации адверсариальных вариантов шагов, набора метрик и протокола оценки. Генерация адверсариальных шагов реализована тремя методами. (1) Synonym Substitution: замена ключевых терминов и чисел на семантически близкие синонимы без изменения логики (например, «добавить 5 см» → «увеличить на пять сантиметров»). (2) Syntactic Transformation: перестановка слов, актив/пассив, изменение порядка придаточных, сохраняющая смысл («если A, то B» → «B следует из A»). (3) Image Perturbation: визуальные искажения, такие как гауссов шум, повороты, изменение яркости, которые не затрагивают решающие визуальные признаки (линии, углы, измерения). Для каждого исходного корректного шага строится до 10 модификаций, что позволяет измерить, насколько уверенность MPJ колеблется при эквивалентных формулировках. Введены три новые метрики. Confidence Robustness Score (CRS) измеряет, насколько мало меняется оценка уверенности при внесении допустимых возмущений: чем меньше дисперсия, тем выше устойчивость. Confidence Sensitivity Score (CSS), наоборот, фиксирует способность модели заметно реагировать на принципиально важные изменения (например, если шаг становится некорректным). Confidence Calibration Score (CCS) оценивает соответствие между предсказанной вероятностью и фактической частотой корректных шагов; отклонение калибровки вычисляется через ECE (Expected Calibration Error) по бинам уверенности. Все метрики нормированы к диапазону [0,100], где 100 означает идеальное поведение. Оценочный протокол включает два этапа. На первом MPJ получает исходный процесс, состоящий из 3-8 шагов, и выдаёт для каждого confidence. На втором те же процессы подвергаются адверсариальным возмущениям, и процедура повторяется. В итоге вычисляются CRS, CSS и CCS для каждой модели на каждом типе возмущения. Для снижения стоимости вычислений используется стратегия

Annotation:

Reasoning is a critical capability of multimodal large language models (MLLMs) for solving complex multimodal tasks, and judging the correctness of reasoning steps is crucial for improving this capability. Recently, MLLM-based process judges (MPJs) have been widely used to assess the correctness of reasoning steps in multimodal tasks. Therefore, evaluating MPJs is important for identifying their limitations and guiding future improvements. However, existing benchmarks for MPJs mainly focus on ta...

ID: 2508.04576v1 cs.AI, I.2.6; I.2.7; D.2.8

arXiv PDF