Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction

2508.20395v1 cs.CL, cs.AI, I.2.7 2025-08-30
Авторы:

Xu Guo

Резюме на русском

#### Контекст В последние годы широко распространены языковые модели с большим объемом параметров (LLMs), которые обладают высокой точностью в решении различных задач. Одним из ключевых аспектов этих моделей является использование разума, который позволяет улучшить точность решения. Тем не менее, существуют недостатки, связанные с оценкой того, насколько полезен каждый реализованный шаг в процессе разума. Статистическая природа авторегрессионного генерирования делает невозможным возврат к предыдущим решениям, что может привести к неточной оценке потенциально полезных шагов. Таким образом, возникает необходимость в методах, позволяющих определить полезность каждого шага в процессе разума, чтобы модель могла своевременно останавливаться или отбрасывать неэффективные шаги. #### Метод Для изучения этой проблемы мы применяем метод уменьшения неопределенности с помощью конденциональной энтропии. Мы используем модели Qwen2.5-32B и GPT-4o для генерации цепочек рассуждений, а затем модель Qwen3-8B для оценки полезности этих цепочек для окончательного решения. Мы измеряем неопределенность модели в отношении ответа (Y) в каждом шаге рассуждения с помощью уменьшения конденциональной энтропии, которая определяется как отношение между размерностью вероятности ответа и отношением вероятности между шагами. Это позволяет проверить, насколько шаги были полезными для получения точного ответа. #### Результаты Мы проводим эксперимент на датасете MATH, где мы измеряем уменьшение неопределенности в ответе на каждый шаг рассуждения. Мы выяснили, что уменьшение неопределенности над ответом при шагах рассуждения сильно связано с правильным ответом, в то время как неизменная неопределенность или ее увеличение указывают на неправильное решение. Мы также обнаружили, что неправильные рассуждения требуют большего количества шагов по сравнению с правильными, что подтверждает, что длительность рассуждений не является сигналом его качества. #### Значимость Наше исследование может иметь практическое значение в разработке более эффективных методов для оценки полезности рассуждений в языковых моделях. Эти методы могут быть применены в различных областях, таких как автоматизированная помощь в решении задач, улучшение систем поиска информации и оптимизация диалоговых систем. Если уменьшение неопределенности может быть использовано для выявления неэффективных рассуждений, это может привести к существенному повышению эффективности языковых моделей и их применений в практических системах. #### Выводы Мы установили, что уменьшение неопределенности в ответе на каж

Abstract

Recent advancements in large language models (LLMs) often rely on generating intermediate reasoning steps to enhance accuracy. However, little work has examined how reasoning utility contributes to the final answer's correctness. Due to the stochastic nature of autoregressive generation, generating more context does not guarantee increased confidence in the answer. If we could predict, during generation, whether a reasoning step will be useful, we could stop early or prune ineffective steps, avoiding distractions in the final decision. We present an oracle study on MATH dataset, using Qwen2.5-32B and GPT-4o to generate reasoning chains, and then employing a separate model (Qwen3-8B) to quantify the utility of these chains for final accuracy. Specifically, we measure the model's uncertainty on the answer span Y at each reasoning step using conditional entropy (expected negative log-likelihood over the vocabulary) with context expanding step by step. Our results show a clear pattern: conditional entropy that decreases over steps is strongly associated with correct answers, whereas flat or increasing entropy often results in wrong answers. We also corroborate that incorrect reasoning paths tend to be longer than correct ones, suggesting that longer reasoning does not necessarily yield better outcomes. These findings serve as a foundation to inspire future work on designing efficient reasoning pipelines that detect and avoid unproductive reasoning early.

Ссылки и действия