Measuring Reasoning Utility in LLMs via Conditional Entropy Reduction
2508.20395v1
cs.CL, cs.AI, I.2.7
2025-08-30
Авторы:
Xu Guo
Резюме на русском
#### Контекст
В последние годы широко распространены языковые модели с большим объемом параметров (LLMs), которые обладают высокой точностью в решении различных задач. Одним из ключевых аспектов этих моделей является использование разума, который позволяет улучшить точность решения. Тем не менее, существуют недостатки, связанные с оценкой того, насколько полезен каждый реализованный шаг в процессе разума. Статистическая природа авторегрессионного генерирования делает невозможным возврат к предыдущим решениям, что может привести к неточной оценке потенциально полезных шагов. Таким образом, возникает необходимость в методах, позволяющих определить полезность каждого шага в процессе разума, чтобы модель могла своевременно останавливаться или отбрасывать неэффективные шаги.
#### Метод
Для изучения этой проблемы мы применяем метод уменьшения неопределенности с помощью конденциональной энтропии. Мы используем модели Qwen2.5-32B и GPT-4o для генерации цепочек рассуждений, а затем модель Qwen3-8B для оценки полезности этих цепочек для окончательного решения. Мы измеряем неопределенность модели в отношении ответа (Y) в каждом шаге рассуждения с помощью уменьшения конденциональной энтропии, которая определяется как отношение между размерностью вероятности ответа и отношением вероятности между шагами. Это позволяет проверить, насколько шаги были полезными для получения точного ответа.
#### Результаты
Мы проводим эксперимент на датасете MATH, где мы измеряем уменьшение неопределенности в ответе на каждый шаг рассуждения. Мы выяснили, что уменьшение неопределенности над ответом при шагах рассуждения сильно связано с правильным ответом, в то время как неизменная неопределенность или ее увеличение указывают на неправильное решение. Мы также обнаружили, что неправильные рассуждения требуют большего количества шагов по сравнению с правильными, что подтверждает, что длительность рассуждений не является сигналом его качества.
#### Значимость
Наше исследование может иметь практическое значение в разработке более эффективных методов для оценки полезности рассуждений в языковых моделях. Эти методы могут быть применены в различных областях, таких как автоматизированная помощь в решении задач, улучшение систем поиска информации и оптимизация диалоговых систем. Если уменьшение неопределенности может быть использовано для выявления неэффективных рассуждений, это может привести к существенному повышению эффективности языковых моделей и их применений в практических системах.
#### Выводы
Мы установили, что уменьшение неопределенности в ответе на каж
Abstract
Recent advancements in large language models (LLMs) often rely on generating
intermediate reasoning steps to enhance accuracy. However, little work has
examined how reasoning utility contributes to the final answer's correctness.
Due to the stochastic nature of autoregressive generation, generating more
context does not guarantee increased confidence in the answer. If we could
predict, during generation, whether a reasoning step will be useful, we could
stop early or prune ineffective steps, avoiding distractions in the final
decision.
We present an oracle study on MATH dataset, using Qwen2.5-32B and GPT-4o to
generate reasoning chains, and then employing a separate model (Qwen3-8B) to
quantify the utility of these chains for final accuracy. Specifically, we
measure the model's uncertainty on the answer span Y at each reasoning step
using conditional entropy (expected negative log-likelihood over the
vocabulary) with context expanding step by step. Our results show a clear
pattern: conditional entropy that decreases over steps is strongly associated
with correct answers, whereas flat or increasing entropy often results in wrong
answers. We also corroborate that incorrect reasoning paths tend to be longer
than correct ones, suggesting that longer reasoning does not necessarily yield
better outcomes. These findings serve as a foundation to inspire future work on
designing efficient reasoning pipelines that detect and avoid unproductive
reasoning early.
Ссылки и действия
Дополнительные ресурсы: