StepWiser: Stepwise Generative Judges for Wiser Reasoning

2508.19229v2 cs.AI, cs.CL 2025-08-28
Авторы:

Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

Резюме на русском

## Контекст В последние годы модели машинного обучения становятся все более сложными и начинают использовать многошаговые стратегии рассуждения для решения сложных задач. Однако поддержание логической корректности промежуточных шагов в этом процессе представляется значительной проблемой. Особенно вызовами становится выделение ошибок и оценка качества промежуточных решений. Эти проблемы решаются через process reward models, которые предоставляют шаг за шагом обратную связь, но существуют две основные проблемы: их функционирование как классификаторов без объяснений и зависимость от предобучения на статичных данных, что ограничивает гибкость и общую применимость. Этот результат можно улучшить, если подход будет рассматриваться как задача логического рассуждения. Наша модель StepWiser предлагает новый подход к решению этой проблемы. ## Метод StepWiser представляет собой модель, которая не только классифицирует решение, но и выражает логический процесс своих рассуждений. Она выводит "мысленные токены", которые подробно описывают рассуждения, и основывается на возвращаемых значениях в процессе проверки различных вариантов решения. Мы используем разность результатов между отдельными шагами размышления для обучения. Важно, что StepWiser не только проверяет решение, но и может предоставлять визуализации, которые помогают понять процесс. Мы используем рейтинг результатов с целью оптимизировать модели, чтобы они могли предлагать лучшие варианты решений. ## Результаты Мы проводили ряд экспериментов для оценки эффективности StepWiser. Мы использовали различные данные, такие как задачи с многошаговым рассуждением, и сравнивали StepWiser с другими подходами. Наши результаты показали, что StepWiser дает значительно более точный ответ на вопрос о корректности промежуточных шагов в процессе рассуждения. Модель также позволяет улучшить значительно качество обучения сети, обученной на шагах многошагового рассуждения, и улучшила использование в течение реального поиска и решения задач. ## Значимость Предложенный подход можно применить в различных областях, таких как робототехника, здравоохранение и образование. Существует много преимуществ, включая улучшение многошаговых стратегий рассуждения, повышение прозрачности решений и повышение качества обучения моделей. Если StepWiser будет использоваться в сложных моделях интеллектуального поиска и решения проблем, он может существенно повысить качество решения задач во всевозможных вариантах. ## Выводы Мы предлагаем новый подход к оценке и улучшению промежуточных промежуточных шагов в многошаговых моделях рассуждения. Модель StepWiser не только улучшает точность оценки промежуточных решени

Abstract

As models increasingly leverage multi-step reasoning strategies to solve complex problems, supervising the logical validity of these intermediate steps has become a critical research challenge. Process reward models address this by providing step-by-step feedback, but current approaches have two major drawbacks: they typically function as classifiers without providing explanations, and their reliance on supervised fine-tuning with static datasets limits generalization. Inspired by recent advances, we reframe stepwise reward modeling from a classification task to a reasoning task itself. We thus propose a generative judge that reasons about the policy model's reasoning steps (i.e., meta-reasons), outputting thinking tokens before delivering a final verdict. Our model, StepWiser, is trained by reinforcement learning using relative outcomes of rollouts. We show it provides (i) better judgment accuracy on intermediate steps than existing methods; (ii) can be used to improve the policy model at training time; and (iii) improves inference-time search.

Ссылки и действия