Variational Reasoning for Language Models

2509.22637v1 cs.CL, cs.AI, cs.LG 2025-09-30
Авторы:

Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang

Резюме на русском

#### Контекст Современные языковые модели (LLMs) проявляют некоторую степень рациональности в своих ответах, но их внутренний порядок мыслей часто остается неясным. Это ограничивает их применимость в областях, где подробный анализ и видимая работа модели критичны. Одним из ключевых задач, связанных с этим, является **рациональное обдумывание решений**. Оно ключевой инструментом для построения моделей, которые не только дают правильный ответ, но и объясняют его, показывая логический порядок мышления. Несмотря на развитие методологий, таких как RL-обучение с гуманским обратным вкладом (Human-in-the-Loop Reinforcement Learning), остаются сложности с тем, чтобы обеспечить стабильность и эффективность. Наша работа ставит цель проанализировать и улучшить рациональное принятие решений в LLMs с помощью вариационного метода. #### Метод Мы предлагаем **Variational Reasoning Framework**, в котором рациональное мышление трактуется как ло LLRsчистое скрытое состояние. **Вариационный подход** используется для оптимизации этого состояния. Мы выводим **multi-trace objective**, расширяющий исходный запасной критерий вариационного оптимизации (ELBO), предлагая более строгий верхний предел для функции правдоподобия. Для стабилизации обучения вариационной оценки мы предлагаем **forward-KL-formulation**. Более того, мы показываем, как **rejection sampling fine-tuning** и **binary-reward RL** (например, Generalized Recursive Policy Optimization, GRPO) могут быть рассмотрены в рамках forward-KL и что они включают в себя неявное взвешивание по вероятности корректности ответа. Это позволяет обнаружить и компенсировать некоторые биазы модели в пользу простых задач. #### Результаты Мы проводим эксперименты на моделях Qwen 2.5 и Qwen 3, оценивая их рациональное мышление по множеству задач. Вариационное рациональное мышление позволяет повысить точность ответов и обеспечить более логически последовательные объяснения. Мы сравниваем наши результаты с ранее предложенными методами, показывая стабильную выгоду во всех задачах, связанных с рациональным решением. Особенно заметны улучшения в задачах, требующих глубокой логической интерпретации. #### Значимость Наша работа предоставляет **простой, универсальный и эффективный подход** к улучшению рационального мышления в языковых моделях. Она может быть применена в различных областях, включая **медицинские выводы**, **финансовый анализ** и **юридический экспертиза**, где понятность и ответственность модели критичны. Кроме того, предлагаемый подход объединяет **вариационные методы с RL**, что позволяет улучшить обучение и применение моделей в сложных задачах. Мы также открываем исходный код нашей работы, чтобы позволить другим иссле

Abstract

We introduce a variational reasoning framework for language models that treats thinking traces as latent variables and optimizes them through variational inference. Starting from the evidence lower bound (ELBO), we extend it to a multi-trace objective for tighter bounds and propose a forward-KL formulation that stabilizes the training of the variational posterior. We further show that rejection sampling finetuning and binary-reward RL, including GRPO, can be interpreted as local forward-KL objectives, where an implicit weighting by model accuracy naturally arises from the derivation and reveals a previously unnoticed bias toward easier questions. We empirically validate our method on the Qwen 2.5 and Qwen 3 model families across a wide range of reasoning tasks. Overall, our work provides a principled probabilistic perspective that unifies variational inference with RL-style methods and yields stable objectives for improving the reasoning ability of language models. Our code is available at https://github.com/sail-sg/variational-reasoning.

Ссылки и действия