Improving Value-based Process Verifier via Low-Cost Variance Reduction
2508.10539v1
cs.AI, cs.CL
2025-08-16
Авторы:
Zetian Sun, Dongfang Li, Baotian Hu, Min Zhang
Резюме на русском
## Контекст
Large language models (LLMs) широко применяются в различных задачах, включая решение математических задач. Однако их мощь часто ограничивается сложностью процессов логического рассуждения. Это проблема становится существенной при работе с значительными объемами данных и высокой степенью сложности. Значимость этих задач возрастает в условиях роста информационных технологий и требований к высококачественной автоматизации. Одним из подходов к решению этой проблемы являются **value-based process verifiers**, которые оценивают вероятность правильности частичного процесса решения. Однако эти методы сталкиваются с высокой ошибкой оценки, вызванной недостаточной точностью аннотаций в процессе обучения, возникающей из-за ограниченности современных мощностей вычислений и необходимости ограниченного количества монте-карло (MC) значений. Эта проблема требует разработки эффективных методов с минимальными затратами.
## Метод
Мы предлагаем **ComMCS (Compound Monte Carlo Sampling)**, метод уменьшения выборочной дисперсии при оценке частичных процессов решений. Метод основывается на комбинировании полученных из текущего и следующего шага монте-карло-оценок. Теоретически мы доказали, что это приводит к снижению дисперсии без увеличения затрат на вычисления. Наш подход позволяет сохранить необходимую точность оценки, не добавляя дополнительные требования к ресурсам. Основным элементом метода является разработка линейных комбинаций пар MC-значений, чтобы свести к минимуму разброс результатов, не потеряв при этом ценность оценки.
## Результаты
Мы провести эксперименты на двух бенчмарках: MATH-500 и GSM8K. На MATH-500 ComMCS показал снижение дисперсии на 2.8 BLEU4-единиц по сравнению с оптимизационным методом регрессии, а на GSM8K - на 2.2 единицы. Эти результаты достигнуты без дополнительных затрат на монте-карло-значения, что делает нашу методику эффективной и применимой в реальных условиях. Данные результаты позволяют утверждать, что метод ComMCS значительно повышает точность и надежность value-based process verifiers, даже при ограниченных ресурсах.
## Значимость
Наш подход может быть применен в различных областях, где необходим достоверный анализ процессов решения задач. Это включает изучение математических задач, логических систем и даже моделирование экономических процессов. Особенно выгодно применение ComMCS в области моделирования решений с низкой достоверностью и высокими затратами расчетов. Этот подход позволяет повысить точность моделирования при значительном сокращении затрат, что является ключевым преимуществом в современных вычислительных системах.
## Выводы
Мы выдвигаем новый подход к улучшению value-based process verifiers, который
Abstract
Large language models (LLMs) have achieved remarkable success in a wide range
of tasks. However, their reasoning capabilities, particularly in complex
domains like mathematics, remain a significant challenge. Value-based process
verifiers, which estimate the probability of a partial reasoning chain leading
to a correct solution, are a promising approach for improving reasoning.
Nevertheless, their effectiveness is often hindered by estimation error in
their training annotations, a consequence of the limited number of Monte Carlo
(MC) samples feasible due to the high cost of LLM inference. In this paper, we
identify that the estimation error primarily arises from high variance rather
than bias, and the MC estimator is a Minimum Variance Unbiased Estimator
(MVUE). To address the problem, we propose the \textsc{Com}pound \textsc{M}onte
\textsc{C}arlo \textsc{S}ampling (ComMCS) method, which constructs an unbiased
estimator by linearly combining the MC estimators from the current and
subsequent steps. Theoretically, we show that our method leads to a predictable
reduction in variance, while maintaining an unbiased estimation without
additional LLM inference cost. We also perform empirical experiments on the
MATH-500 and GSM8K benchmarks to demonstrate the effectiveness of our method.
Notably, ComMCS outperforms regression-based optimization method by 2.8 points,
the non-variance-reduced baseline by 2.2 points on MATH-500 on Best-of-32
sampling experiment.
Ссылки и действия
Дополнительные ресурсы: