StepWiser: Stepwise Generative Judges for Wiser Reasoning
2508.19229v2
cs.AI, cs.CL
2025-08-28
Авторы:
Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar
Резюме на русском
## Контекст
В последние годы модели машинного обучения становятся все более сложными и начинают использовать многошаговые стратегии рассуждения для решения сложных задач. Однако поддержание логической корректности промежуточных шагов в этом процессе представляется значительной проблемой. Особенно вызовами становится выделение ошибок и оценка качества промежуточных решений. Эти проблемы решаются через process reward models, которые предоставляют шаг за шагом обратную связь, но существуют две основные проблемы: их функционирование как классификаторов без объяснений и зависимость от предобучения на статичных данных, что ограничивает гибкость и общую применимость. Этот результат можно улучшить, если подход будет рассматриваться как задача логического рассуждения. Наша модель StepWiser предлагает новый подход к решению этой проблемы.
## Метод
StepWiser представляет собой модель, которая не только классифицирует решение, но и выражает логический процесс своих рассуждений. Она выводит "мысленные токены", которые подробно описывают рассуждения, и основывается на возвращаемых значениях в процессе проверки различных вариантов решения. Мы используем разность результатов между отдельными шагами размышления для обучения. Важно, что StepWiser не только проверяет решение, но и может предоставлять визуализации, которые помогают понять процесс. Мы используем рейтинг результатов с целью оптимизировать модели, чтобы они могли предлагать лучшие варианты решений.
## Результаты
Мы проводили ряд экспериментов для оценки эффективности StepWiser. Мы использовали различные данные, такие как задачи с многошаговым рассуждением, и сравнивали StepWiser с другими подходами. Наши результаты показали, что StepWiser дает значительно более точный ответ на вопрос о корректности промежуточных шагов в процессе рассуждения. Модель также позволяет улучшить значительно качество обучения сети, обученной на шагах многошагового рассуждения, и улучшила использование в течение реального поиска и решения задач.
## Значимость
Предложенный подход можно применить в различных областях, таких как робототехника, здравоохранение и образование. Существует много преимуществ, включая улучшение многошаговых стратегий рассуждения, повышение прозрачности решений и повышение качества обучения моделей. Если StepWiser будет использоваться в сложных моделях интеллектуального поиска и решения проблем, он может существенно повысить качество решения задач во всевозможных вариантах.
## Выводы
Мы предлагаем новый подход к оценке и улучшению промежуточных промежуточных шагов в многошаговых моделях рассуждения. Модель StepWiser не только улучшает точность оценки промежуточных решени
Abstract
As models increasingly leverage multi-step reasoning strategies to solve
complex problems, supervising the logical validity of these intermediate steps
has become a critical research challenge. Process reward models address this by
providing step-by-step feedback, but current approaches have two major
drawbacks: they typically function as classifiers without providing
explanations, and their reliance on supervised fine-tuning with static datasets
limits generalization. Inspired by recent advances, we reframe stepwise reward
modeling from a classification task to a reasoning task itself. We thus propose
a generative judge that reasons about the policy model's reasoning steps (i.e.,
meta-reasons), outputting thinking tokens before delivering a final verdict.
Our model, StepWiser, is trained by reinforcement learning using relative
outcomes of rollouts. We show it provides (i) better judgment accuracy on
intermediate steps than existing methods; (ii) can be used to improve the
policy model at training time; and (iii) improves inference-time search.
Ссылки и действия
Дополнительные ресурсы: