GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning
2508.04088v2
cs.CL
2025-08-09
Авторы:
Jianghangfan Zhang, Yibo Yan, Kening Zheng, Xin Zou, Song Dai, Xuming Hu
Резюме на русском
Multimodal Large Language Models (MLLMs) показывают выдающиеся возможности при многомодальном обработке, но сталкиваются с трудностями в выполнении сложных многошаговых задач математического рассуждения. Ошибки в визуальном исследовании или логических выводах могут приводить к неверным результатам. Для улучшения качества решений, авторы предлагают Generative Multimodal Process Reward Model (GM-PRM) — новую модель, превращающую Process Reward Model (PRM) из простого оценщика в активного участника процесса решения. GM-PRM не только выявляет заведомо неверные шаги, но и предлагает их корректировку, что дает новый подход к интерпретации и улучшению решений. Эта модель была проверена на нескольких многомодальных математических бенчмарках, где она демонстрирует существенный показатель улучшения тестирующей модели с минимальным объёмом обучающих данных (20K семплов). Это решение имеет большое значение для работы MLLMs в задачах, требующих точности и высокой объёмности вывода.
Abstract
Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities
but often struggle with complex, multi-step mathematical reasoning, where minor
errors in visual perception or logical deduction can lead to complete failure.
While Process Reward Models (PRMs) offer step-by-step supervision, existing
multimodal PRMs are limited to being binary verifiers that can identify but not
correct errors, offering little explanatory power. To address these
deficiencies, we introduce the Generative Multimodal Process Reward Model
(GM-PRM), a novel paradigm that transforms the PRM from a passive judge into an
active reasoning collaborator. Instead of a simple scalar score, GM-PRM
provides a fine-grained, interpretable analysis of each reasoning step,
evaluating its step intent, visual alignment, and logical soundness. More
critically, GM-PRM is trained to generate a corrected version of the first
erroneous step it identifies. This unique corrective capability enables our new
test-time inference strategy, Refined Best-of-N (Refined-BoN). This framework
actively enhances solution quality by using the PRM's generated correction to
guide the policy model toward a more promising reasoning trajectory, thereby
improving the diversity and correctness of the solution pool. We demonstrate
that GM-PRM achieves state-of-the-art results on multiple multimodal math
benchmarks, significantly boosting policy model performance with remarkable
data efficiency, requiring only a 20K-sample training dataset. Our code will be
released upon acceptance.
Ссылки и действия
Дополнительные ресурсы: