Variation in Verification: Understanding Verification Dynamics in Large Language Models

2509.17995v1 cs.CL, cs.AI, cs.LG 2025-09-24
Авторы:

Yefan Zhou, Austin Xu, Yilun Zhou, Janvijay Singh, Jiang Gui, Shafiq Joty

Резюме на русском

#### Контекст Тестирование на высоком распределении вычислительных ресурсов (Test-Time Scaling, TTS) позволяет бо LLM генераторам генерировать множество вариантов ответов, которые потом оцениваются БВ на основании своего знания, без использования ответов-справочников. Одним из подходов является использование генерирующих БВ, которые производят цепочку рассуждений (Chain-of-Thought, CoT) и делают окончательное суждение. Текущие исследования направлены на изучение динамики процесса верификации и его зависимости от сложности задачи, способности генератора и БВ. Наша статья посвящена углубленному анализу этих динамик, на основе 12 бенчмарков в сферах математического рассуждения, навыка знаний и естественных языковых задач, используя 14 моделей с параметрами от 2B до 72B. #### Метод Мы проводили подробные эксперименты для изучения динамики процесса верификации в бо LLM. Мы измеряли три основных фактора: сложность задачи, способность генератора и БВ. Для этого мы использовали 14 моделей, открытые исходные коды и модель GPT-4o. Мы изучали различные типы задач, включая математический анализ, знания и естественно-языковые тесты. Наши эксперименты позволяли измерить, насколько эффективны разные типы БВ в зависимости от сложности задачи и способности генератора. Мы также проверили, насколько соотношение генератора-верификатор может повлиять на полученные результаты. #### Результаты Наши эксперименты показали, что сложность задачи имеет сильное влияние на возможность БВ успешно проверить ответы. Из 12 бенчмарков, мы обнаружили, что БВ могут достигать высоких результатов в простых задачах, но в более сложных случаях их эффективность снижается. Мы также обнаружили, что слабые генераторы, которые производят ошибки, легче определить, чем сильные генераторы, которые могут производить более сложные ошибки. Мы также видим, что увеличение верификатора не всегда приводит к улучшению, так как некоторые БВ, даже слабые, могут выдавать почти тот же результат, что и сильные БВ. #### Значимость Наши находки имеют важное значение в развитии технологии БВ. Мы показали, что TTS может быть оптимизировано для различных типов задач, включая математический анализ и естественно-языковые тесты. Мы также обнаружили, что некоторые БВ могут быть оптимизированы для более эффективной работы в зависимости от сложности задачи. Эти результаты могут помочь в развитии более эффективных стратегий верификации, которые могут быть использованы в развитии более продвинутых моделей беспроводной связи. Мы также отме

Abstract

Recent advances have shown that scaling test-time computation enables large language models (LLMs) to solve increasingly complex problems across diverse domains. One effective paradigm for test-time scaling (TTS) involves LLM generators producing multiple solution candidates, with LLM verifiers assessing the correctness of these candidates without reference answers. In this paper, we study generative verifiers, which perform verification by generating chain-of-thought (CoT) reasoning followed by a binary verdict. We systematically analyze verification dynamics across three dimensions - problem difficulty, generator capability, and verifier generation capability - with empirical studies on 12 benchmarks across mathematical reasoning, knowledge, and natural language reasoning tasks using 14 open-source models (2B to 72B parameter range) and GPT-4o. Our experiments reveal three key findings about verification effectiveness: (1) Easy problems allow verifiers to more reliably certify correct responses; (2) Weak generators produce errors that are easier to detect than strong generators; (3) Verification ability is generally correlated with the verifier's own problem-solving capability, but this relationship varies with problem difficulty. These findings reveal opportunities to optimize basic verification strategies in TTS applications. First, given the same verifier, some weak generators can nearly match stronger ones in post-verification TTS performance (e.g., the Gemma2-9B to Gemma2-27B performance gap shrinks by 75.5%). Second, we identify cases where strong verifiers offer limited advantage over weak ones, as both fail to provide meaningful verification gains, suggesting that verifier scaling alone cannot overcome fundamental verification challenges.

Ссылки и действия