StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models

2508.05383v1 cs.AI 2025-08-09

Авторы:

Xiangxiang Zhang, Jingxuan Wei, Donghong Zhong, Qi Chen, Caijun Jia, Cheng Tan, Jinming Gu, Xiaobo Qin, Zhiping Liu, Liang Hu, Tong Sun, Yuchen Wu, Zewei Sun, Chenwei Lou, Hua Zheng, Tianyang Zhan, Changbao Wang, Shuangzhi Wu, Zefa Lin, Chang Guo, Sihang Yuan, Riwei Chen, Shixiong Zhao, Yingping Zhang, Gaowei Wu, Bihui Yu, Jiahui Wu, Zhehui Zhao, Qianqian Liu, Ruofeng Tang, Xingyue Huang, Bing Zhao, Mengyang Zhang, Youqiang Zhou

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы мультимодальные модели зрение-язык проделали значительный путь в понимании и генерации контента, объединяющего визуальную и текстуальную информацию. Однако при переходе к задачам комплексного рассуждения, особенно в STEM-дисциплинах, они сталкиваются с критическим препятствием: неспособностью эффективно обрабатывать многошаговые задачи, где правильность ответа зависит от последовательного решения множества взаимосвязанных подвопросов. Традиционные механизмы вознаграждения, применяемые при обучении с подкреплением от человеческой обратной связи (RLHF), используют единичную бинарную оценку для всего ответа. Этот подход оказывается чрезмерно грубым для сложных задач, где частичная корректность имеет решающее значение для эффективного обучения. Проблема усугубляется тем, что в многокомпонентных заданиях одна ошибка в промежуточном шаге может привести к неправильному финальному ответу, хотя модель могла продемонстрировать правильное понимание значительной части задачи. Существующие системы не способны распознать и вознаградить такие частичные успехи, что приводит к неэффективному использованию обучающих данных и замедленному прогрессу в развитии способностей к рассуждению. Критически важным становится вопрос создания более тонких механизмов обратной связи, способных оценивать правильность на уровне отдельных компонентов сложного ответа, учитывая как семантическую, так и математическую эквивалентность выражений, а не полагаясь на жесткое строковое сопоставление. ## ПРЕДЛОЖЕННЫЙ МЕТОД StructVRM представляет собой революционный подход к выравниванию мультимодального рассуждения через структурированные и проверяемые модели вознаграждений. Ядром метода является обученная модель-верификатор, способная предоставлять детализированную обратную связь на уровне отдельных подвопросов в рамках сложной задачи. В отличие от традиционных систем, оценивающих ответ целиком, StructVRM разбивает сложную задачу на структурированную последовательность проверяемых компонентов. Модель-верификатор обучается распознавать семантическую и математическую эквивалентность между сгенерированным и эталонным ответами, что позволяет избежать ограничений жесткого строкового сопоставления. Это достигается через внедрение продвинутых техник понимания контекста и математического парсинга, которые могут идентифицировать эквивалентные выражения даже при различной формулировке или представлении. Например, алгебраическое выражение может быть записано различными способами, но при этом сохранять математическую эквивалентность. Система внедряет концепцию частичного кредитования, где каждый правильно решенный подкомпонент задачи получает соответствующее вознаграждение, даже если финальный ответ содержит ошибки. Это позволяет модели учиться на промежуточных успехах и постепенно улучшать качество рассуждений. Структурированный подход к вознаграждению создает более информативный сигнал обучения, способствующий развитию более надежных и точных моделей мультимодального рассуждения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Командой проведены обширные эксперименты для валидации эффективности StructVRM. Обученная модель Seed-StructVRM продемонстрировала исключительные результаты, достигнув state-of-the-art производительности на шести из двенадцати публичных мультимодальных бенчмарков. Среди них - сложные задачи по математике, физике и логике, требующие многошаговых рассуждений с использованием визуальной информации. Особенно значимы результаты на новом, специально созданном бенчмарке высокой сложности STEM-Bench, включающем задачи из области наук, технологий, инженерии и математики. Этот бенчмарк был сконструирован для тестирования моделей на пределе их возможностей, включая задачи с множеством взаимосвязанных компонентов и необходимостью точных вычислений. Seed-StructVRM показала значительное превосходство над существующими моделями, особенно в задачах, требующих последовательного решения множества подвопросов. Эксперименты включали сравнение с базовыми линиями, представленными как традиционными моделями зрение-язык, так и специализирован

Abstract

Existing Vision-Language Models often struggle with complex, multi-question reasoning tasks where partial correctness is crucial for effective learning. Traditional reward mechanisms, which provide a single binary score for an entire response, are too coarse to guide models through intricate problems with multiple sub-parts. To address this, we introduce StructVRM, a method that aligns multimodal reasoning with Structured and Verifiable Reward Models. At its core is a model-based verifier trained to provide fine-grained, sub-question-level feedback, assessing semantic and mathematical equivalence rather than relying on rigid string matching. This allows for nuanced, partial credit scoring in previously intractable problem formats. Extensive experiments demonstrate the effectiveness of StructVRM. Our trained model, Seed-StructVRM, achieves state-of-the-art performance on six out of twelve public multimodal benchmarks and our newly curated, high-difficulty STEM-Bench. The success of StructVRM validates that training with structured, verifiable rewards is a highly effective approach for advancing the capabilities of multimodal models in complex, real-world reasoning domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

StructVRM: Aligning Multimodal Reasoning with Structured and Verifiable Reward Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация