Improving Value-based Process Verifier via Low-Cost Variance Reduction

2508.10539v1 cs.AI, cs.CL 2025-08-16

Авторы:

Zetian Sun, Dongfang Li, Baotian Hu, Min Zhang

Резюме на русском

## Контекст Large language models (LLMs) широко применяются в различных задачах, включая решение математических задач. Однако их мощь часто ограничивается сложностью процессов логического рассуждения. Это проблема становится существенной при работе с значительными объемами данных и высокой степенью сложности. Значимость этих задач возрастает в условиях роста информационных технологий и требований к высококачественной автоматизации. Одним из подходов к решению этой проблемы являются **value-based process verifiers**, которые оценивают вероятность правильности частичного процесса решения. Однако эти методы сталкиваются с высокой ошибкой оценки, вызванной недостаточной точностью аннотаций в процессе обучения, возникающей из-за ограниченности современных мощностей вычислений и необходимости ограниченного количества монте-карло (MC) значений. Эта проблема требует разработки эффективных методов с минимальными затратами. ## Метод Мы предлагаем **ComMCS (Compound Monte Carlo Sampling)**, метод уменьшения выборочной дисперсии при оценке частичных процессов решений. Метод основывается на комбинировании полученных из текущего и следующего шага монте-карло-оценок. Теоретически мы доказали, что это приводит к снижению дисперсии без увеличения затрат на вычисления. Наш подход позволяет сохранить необходимую точность оценки, не добавляя дополнительные требования к ресурсам. Основным элементом метода является разработка линейных комбинаций пар MC-значений, чтобы свести к минимуму разброс результатов, не потеряв при этом ценность оценки. ## Результаты Мы провести эксперименты на двух бенчмарках: MATH-500 и GSM8K. На MATH-500 ComMCS показал снижение дисперсии на 2.8 BLEU4-единиц по сравнению с оптимизационным методом регрессии, а на GSM8K - на 2.2 единицы. Эти результаты достигнуты без дополнительных затрат на монте-карло-значения, что делает нашу методику эффективной и применимой в реальных условиях. Данные результаты позволяют утверждать, что метод ComMCS значительно повышает точность и надежность value-based process verifiers, даже при ограниченных ресурсах. ## Значимость Наш подход может быть применен в различных областях, где необходим достоверный анализ процессов решения задач. Это включает изучение математических задач, логических систем и даже моделирование экономических процессов. Особенно выгодно применение ComMCS в области моделирования решений с низкой достоверностью и высокими затратами расчетов. Этот подход позволяет повысить точность моделирования при значительном сокращении затрат, что является ключевым преимуществом в современных вычислительных системах. ## Выводы Мы выдвигаем новый подход к улучшению value-based process verifiers, который

Abstract

Large language models (LLMs) have achieved remarkable success in a wide range of tasks. However, their reasoning capabilities, particularly in complex domains like mathematics, remain a significant challenge. Value-based process verifiers, which estimate the probability of a partial reasoning chain leading to a correct solution, are a promising approach for improving reasoning. Nevertheless, their effectiveness is often hindered by estimation error in their training annotations, a consequence of the limited number of Monte Carlo (MC) samples feasible due to the high cost of LLM inference. In this paper, we identify that the estimation error primarily arises from high variance rather than bias, and the MC estimator is a Minimum Variance Unbiased Estimator (MVUE). To address the problem, we propose the \textsc{Com}pound \textsc{M}onte \textsc{C}arlo \textsc{S}ampling (ComMCS) method, which constructs an unbiased estimator by linearly combining the MC estimators from the current and subsequent steps. Theoretically, we show that our method leads to a predictable reduction in variance, while maintaining an unbiased estimation without additional LLM inference cost. We also perform empirical experiments on the MATH-500 and GSM8K benchmarks to demonstrate the effectiveness of our method. Notably, ComMCS outperforms regression-based optimization method by 2.8 points, the non-variance-reduced baseline by 2.2 points on MATH-500 on Best-of-32 sampling experiment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Value-based Process Verifier via Low-Cost Variance Reduction

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Algorithmic Thinking Theory

From Atomic to Composite: Reinforcement Learning Enables Generalization in Compl...

LLM CHESS: Benchmarking Reasoning and Instruction-Following in LLMs through Ches...

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human L...

Навигация