Learning to Reason with Mixture of Tokens

2509.21482v1 cs.CL, cs.AI, cs.LG 2025-09-30
Авторы:

Adit Jain, Brendan Rappazzo

Резюме на русском

Описание научной статьи: ## Контекст Результативность бо LLM (large language models) зависит во многом от их возможности обдумывать задачи и принимать логичные решения. Одним из перспективных подходов является reinforcement learning with verifiable rewards (RLVR), который стимулирует LLMs не только выдавать правильные ответы, но и объяснять свое решение. Существующие методы RLVR, основанные на Group Relative Policy Optimization, сталкиваются с ограничением — они работают с дискретными токенами и не учитывают распределенную информацию в модели. Эта проблема может привести к ограниченной исследовательской полноте в процессе решения задач. Наша исследовательская цель — изучить и использовать распределенные распределения токенов в RLVR для улучшения производительности и точности. ## Метод Разработанный подход, названный **Mixture of Tokens Generation (MoT-G)**, предлагает новый архитектурный подход к RLVR. В отличие от дискретных токенов, он работает в пространстве непрерывных векторных смесей токенов (mixture embeddings). Эти смеси формируются на основе весов, выдаваемых моделью для каждого токена в процессе реакции. Мы предлагаем универсальную модель, которая включает в себя и существующие методы, генерирующие смеси токенов, и расширяет RLVR на прямое использование этих смесей в процессе генерирования цепей мыслей (chain-of-thought). Это расширение позволяет лучше использовать распределенную информацию и увеличивает гибкость в решении задач. ## Результаты Мы проверили MoT-G на наборе задач Reasoning-Gym, который измеряет различные аспекты логического мышления. Эксперименты показали, что MoT-G дает значительные улучшения — до 35% на 7 из 10 задач по сравнению с стандартным RLVR. Более того, новая модель достигает этих результатов с меньшим числом траекторий, что указывает на эффективность подхода. Дополнительные анализы показали, что MoT-G повышает степень неопределенности в процессе решения задач, что позволяет модели больше исследовать возможные варианты решения. Этот эффект может быть одной из причин, почему MoT-G превосходит стандартные методы. ## Значимость Новый подход имеет широкие применения в области NLP (natural language processing), особенно при решении задач, требующих глубокого разума и анализа. Метод не только повышает точность, но и улучшает работу моделей в условиях ограниченных ресурсов, таких как количество траекторий. Это может сделать MoT-G привлекательным для реализации в системах, где необходима быстрая и точная реагирования. Будущими направлениями исследований будет расширение применения MoT-G к другим моделям и задачам, а также исследование новых стратегий для еще большего повышения эффективности. ## Выводы Мы представили **Mixture of Tokens Generation (MoT

Abstract

Reinforcement learning with verifiable rewards (RLVR) has become a leading approach for improving large language model (LLM) reasoning capabilities. Most current methods follow variants of Group Relative Policy Optimization, which samples multiple reasoning completions, scores them relative to each other, and adjusts the policy accordingly. However, these approaches invariably sample discrete tokens at each reasoning step, discarding the rich distributional information in the model's probability distribution over candidate tokens. While preserving and utilizing this distributional information has proven beneficial in non-RL settings, current RLVR methods seem to be unnecessarily constraining the reasoning search space by not using this information. To address this limitation, we investigate mixture-of-token generation (MoT-G) in RLVR. We present a unified framework that generalizes existing MoT-G approaches, including existing training-free methods that construct mixture embeddings as weighted sums over token embeddings, and extend RLVR to operate directly in this continuous mixture space for generating chain-of-thought. Evaluating two MoT-G variants on Reasoning-Gym, a suite of reasoning-intensive language tasks, we find that MoT--G methods achieve substantial improvements (5--35 \% gains on 7 out of 10 tasks) compared to standard decoding with the Qwen2.5-1.5B model, while reaching comparable accuracy with half the number of trajectories, suggesting improved training efficiency. Through comprehensive hidden-state and token-level analyses, we provide evidence that MoT--G's benefits may stem from its ability to maintain higher hidden-state entropy throughout the reasoning process and promote exploration in token space.

Ссылки и действия