LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

2508.03440v3 cs.CL, cs.AI 2025-08-09

Авторы:

Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Человеческое мышление приспособлено к работе с абстрактными и гибкими понятиями, однако современные модели резонного мышления часто ограничены генерацией дискретных токенов, что может ограничивать их выразительные возможности. В последнее время было предпринято много усилий по расширению возможностей больших языковых моделей (LLMs) за счет использования мягких, абстрактных токенов, что позволяет проводить резонирование в непрерывном пространстве концепций. Это подход, известный как "Soft Thinking", обещает расширить возможности LLMs в решении сложных задач резонации. Однако, несмотря на потенциал Soft Thinking, существуют недостатки в том, как LLMs используют мягкие токены. Многие модели, как показывают последние исследования, предпочитают использовать наиболее влиятельные компоненты мягких входных данных во время процесса декодирования, что ограничивает возможность освещения различных путей резонации. Это приводит к тому, что Soft Thinking сводится к жадному декодированию, что снижает преимущества передачи более широкой информации через мягкие токены. В данной работе авторы проводят подробный анализ внутреннего поведения LLMs при использовании Soft Thinking, используя различные методы пробингования. Они показывают, что, несмотря на ожидание, что Soft Thinking может позволить моделям одновременно исследовать различные пути резонации, в действительности модели склонны к упрощенному подходу, который не позволяет полностью реализовать потенциал этого подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения ограничений ванильного подхода Soft Thinking, авторы предлагают ввести элементы случайности в процесс декодирования. Они используют два метода: Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют ввести случайность в процесс генерации токенов, что помогает моделям исследовать более широкий набор вариантов резонации. Dirichlet resampling позволяет создавать распределения случайных весов для мягких токенов, в то время как Gumbel-Softmax trick предоставляет более контролируемый способ введения случайности с гладким переходом между дискретным и непрерывным пространством. Эти методы позволяют моделям расширить свои возможности в исследовании различных путей резонации, что приводит к лучшим результатам в задачах, требующих сложного мышления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов на базе восьми различных резонирующих задач, чтобы оценить эффективность предложенных методов. Результаты показывают, что использование случайности в процессе декодирования значительно повышает производительность моделей. В частности, Gumbel-Softmax trick демонстрирует наилучшие результаты, обеспечивая достаточную степень случайности и гладкость перехода между режимами. Исследования показывают, что внедрение случайности позволяет моделям лучше использовать потенциал мягких токенов, что приводит к значительному улучшению результатов в резонирующих задачах. Эти результаты подтверждают, что случайность может быть ключевым фактором для расширения возможностей LLMs в резонации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкие практические применения в областях, требующих сложного резонативного мышления, таких как научное исследование, клиническая диагностика и сложные задачи принятия решений. Использование мягких токенов с введением случайности позволяет улучшить качество и точность решений, что делает этот подход привлекательным для реального мира. Кроме того, этот подход может быть использован в областях, требующих гибкости и адаптивности, таких как робототехника и автономные системы. Преимущества этого подхода заключаются в том, что он позволяет моделям более эффективно использовать информацию и исследовать различные пути резонации, что может привести к более творческим и точным решениям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, данное исследование показывает, что Soft Thinking может быть значительно улучшено за счет введения случайности в процесс декодирования. Использование методов таких как Gumbel-Softmax trick позволяет расширить возможности LLMs в резонации, что делает этот подход более эффективным в решении сложных задач. В будущем, дальнейшие исследования могут фокусироваться на разработке более эффективных способов введения случайности, а также на исследовании других методов для улучшения Soft Thinking. Это может привести к более широкому применению этого подхода в различных областях, где требуется сложное и гибкое мышление.

Abstract

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavior using a suite of probing techniques. Contrary to the common belief that Soft Thinking enables the simultaneous exploration of diverse reasoning paths, our findings reveal that LLMs predominantly rely on the most influential component of the soft inputs during subsequent decoding steps. This reliance hinders the exploration of different reasoning paths and reduces vanilla Soft Thinking to a form of greedy decoding, obscuring the advantage of transmitting more information through Soft Tokens. To tackle this issue, we explore sampling strategies to introduce \emph{randomness}, employing methods such as Dirichlet resampling and the Gumbel-Softmax trick. Our experiments demonstrate that incorporating randomness can alleviate the limitations of vanilla approaches and unleash the potential of Soft Thinking. Notably, the Gumbel-Softmax trick provides adequate randomness with controlled smoothness, resulting in superior performance across eight reasoning benchmarks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация