LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models
2508.03440v1
cs.CL, cs.AI
2025-08-06
Авторы:
Junhong Wu, Jinliang Lu, Zixuan Ren, Ganqiang Hu, Zhi Wu, Dai Dai, Hua Wu
Резюме на русском
Большие языковые модели (LLMs) обычно основываются на генерации дискретных токенов, что может ограничивать их способность к резкому мышлению в более абстрактных и непрерывных пространствах. Для решения этой проблемы, исследование посвящено изучению возможностей "мягкого мышления" (Soft Thinking) в LLMs, где модели используют более абстрактные, недискретные токены. Однако, анализ внутреннего поведения LLMs показал, что, несмотря на использование "мягких" входных данных, модели часто зависят от самого влиятельного компонента этих данных, что ограничивает их способность к исследованию разных путей резонанса и делает процесс похожим на жадный декодирования. Чтобы преодолеть эту проблему, исследователи предложили ввести случайность в процесс генерации, используя методы такие как Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют улучшить производительность LLMs в резонансе, особенно Gumbel-Softmax trick, который обеспечивает оптимальный баланс между случайностью и сглаживанием, показывая лучшие результаты на восемь различных задачах резонанса.
Abstract
Human cognition naturally engages with abstract and fluid concepts, whereas
existing reasoning models often rely on generating discrete tokens, potentially
constraining their expressive capabilities. Recent advancements aim to address
this limitation by enabling large language models (LLMs) to generate soft,
abstract tokens, thus facilitating reasoning within a continuous concept space.
This paper explores the `Soft Thinking' capabilities of various LLMs by
examining the models' internal behavior using a suite of probing techniques.
Contrary to the common belief that Soft Thinking enables the simultaneous
exploration of diverse reasoning paths, our findings reveal that LLMs
predominantly rely on the most influential component of the soft inputs during
subsequent decoding steps. This reliance hinders the exploration of different
reasoning paths and reduces vanilla Soft Thinking to a form of greedy decoding,
obscuring the advantage of transmitting more information through Soft Tokens.
To tackle this issue, we explore sampling strategies to introduce
\emph{randomness}, employing methods such as Dirichlet resampling and the
Gumbel-Softmax trick. Our experiments demonstrate that incorporating randomness
can alleviate the limitations of vanilla approaches and unleash the potential
of Soft Thinking. Notably, the Gumbel-Softmax trick provides adequate
randomness with controlled smoothness, resulting in superior performance across
eight reasoning benchmarks.
Ссылки и действия
Дополнительные ресурсы: