StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models
2508.05383v1
cs.AI
2025-08-09
Авторы:
Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последние годы мультимодальные модели зрение-язык проделали значительный путь в понимании и генерации контента, объединяющего визуальную и текстуальную информацию. Однако при переходе к задачам комплексного рассуждения, особенно в STEM-дисциплинах, они сталкиваются с критическим препятствием: неспособностью эффективно обрабатывать многошаговые задачи, где правильность ответа зависит от последовательного решения множества взаимосвязанных подвопросов. Традиционные механизмы вознаграждения, применяемые при обучении с подкреплением от человеческой обратной связи (RLHF), используют единичную бинарную оценку для всего ответа. Этот подход оказывается чрезмерно грубым для сложных задач, где частичная корректность имеет решающее значение для эффективного обучения.
Проблема усугубляется тем, что в многокомпонентных заданиях одна ошибка в промежуточном шаге может привести к неправильному финальному ответу, хотя модель могла продемонстрировать правильное понимание значительной части задачи. Существующие системы не способны распознать и вознаградить такие частичные успехи, что приводит к неэффективному использованию обучающих данных и замедленному прогрессу в развитии способностей к рассуждению. Критически важным становится вопрос создания более тонких механизмов обратной связи, способных оценивать правильность на уровне отдельных компонентов сложного ответа, учитывая как семантическую, так и математическую эквивалентность выражений, а не полагаясь на жесткое строковое сопоставление.
## ПРЕДЛОЖЕННЫЙ МЕТОД
StructVRM представляет собой революционный подход к выравниванию мультимодального рассуждения через структурированные и проверяемые модели вознаграждений. Ядром метода является обученная модель-верификатор, способная предоставлять детализированную обратную связь на уровне отдельных подвопросов в рамках сложной задачи. В отличие от традиционных систем, оценивающих ответ целиком, StructVRM разбивает сложную задачу на структурированную последовательность проверяемых компонентов.
Модель-верификатор обучается распознавать семантическую и математическую эквивалентность между сгенерированным и эталонным ответами, что позволяет избежать ограничений жесткого строкового сопоставления. Это достигается через внедрение продвинутых техник понимания контекста и математического парсинга, которые могут идентифицировать эквивалентные выражения даже при различной формулировке или представлении. Например, алгебраическое выражение может быть записано различными способами, но при этом сохранять математическую эквивалентность.
Система внедряет концепцию частичного кредитования, где каждый правильно решенный подкомпонент задачи получает соответствующее вознаграждение, даже если финальный ответ содержит ошибки. Это позволяет модели учиться на промежуточных успехах и постепенно улучшать качество рассуждений. Структурированный подход к вознаграждению создает более информативный сигнал обучения, способствующий развитию более надежных и точных моделей мультимодального рассуждения.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Командой проведены обширные эксперименты для валидации эффективности StructVRM. Обученная модель Seed-StructVRM продемонстрировала исключительные результаты, достигнув state-of-the-art производительности на шести из двенадцати публичных мультимодальных бенчмарков. Среди них - сложные задачи по математике, физике и логике, требующие многошаговых рассуждений с использованием визуальной информации.
Особенно значимы результаты на новом, специально созданном бенчмарке высокой сложности STEM-Bench, включающем задачи из области наук, технологий, инженерии и математики. Этот бенчмарк был сконструирован для тестирования моделей на пределе их возможностей, включая задачи с множеством взаимосвязанных компонентов и необходимостью точных вычислений. Seed-StructVRM показала значительное превосходство над существующими моделями, особенно в задачах, требующих последовательного решения множества подвопросов.
Эксперименты включали сравнение с базовыми линиями, представленными как традиционными моделями зрение-язык, так и специализирован
Abstract
Existing Vision-Language Models often struggle with complex, multi-question
reasoning tasks where partial correctness is crucial for effective learning.
Traditional reward mechanisms, which provide a single binary score for an
entire response, are too coarse to guide models through intricate problems with
multiple sub-parts. To address this, we introduce StructVRM, a method that
aligns multimodal reasoning with Structured and Verifiable Reward Models. At
its core is a model-based verifier trained to provide fine-grained,
sub-question-level feedback, assessing semantic and mathematical equivalence
rather than relying on rigid string matching. This allows for nuanced, partial
credit scoring in previously intractable problem formats. Extensive experiments
demonstrate the effectiveness of StructVRM. Our trained model, Seed-StructVRM,
achieves state-of-the-art performance on six out of twelve public multimodal
benchmarks and our newly curated, high-difficulty STEM-Bench. The success of
StructVRM validates that training with structured, verifiable rewards is a
highly effective approach for advancing the capabilities of multimodal models
in complex, real-world reasoning domains.
Ссылки и действия
Дополнительные ресурсы: