Learning to Reason with Mixture of Tokens
2509.21482v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Adit Jain, Brendan Rappazzo
Резюме на русском
Описание научной статьи:
## Контекст
Результативность бо LLM (large language models) зависит во многом от их возможности обдумывать задачи и принимать логичные решения. Одним из перспективных подходов является reinforcement learning with verifiable rewards (RLVR), который стимулирует LLMs не только выдавать правильные ответы, но и объяснять свое решение. Существующие методы RLVR, основанные на Group Relative Policy Optimization, сталкиваются с ограничением — они работают с дискретными токенами и не учитывают распределенную информацию в модели. Эта проблема может привести к ограниченной исследовательской полноте в процессе решения задач. Наша исследовательская цель — изучить и использовать распределенные распределения токенов в RLVR для улучшения производительности и точности.
## Метод
Разработанный подход, названный **Mixture of Tokens Generation (MoT-G)**, предлагает новый архитектурный подход к RLVR. В отличие от дискретных токенов, он работает в пространстве непрерывных векторных смесей токенов (mixture embeddings). Эти смеси формируются на основе весов, выдаваемых моделью для каждого токена в процессе реакции. Мы предлагаем универсальную модель, которая включает в себя и существующие методы, генерирующие смеси токенов, и расширяет RLVR на прямое использование этих смесей в процессе генерирования цепей мыслей (chain-of-thought). Это расширение позволяет лучше использовать распределенную информацию и увеличивает гибкость в решении задач.
## Результаты
Мы проверили MoT-G на наборе задач Reasoning-Gym, который измеряет различные аспекты логического мышления. Эксперименты показали, что MoT-G дает значительные улучшения — до 35% на 7 из 10 задач по сравнению с стандартным RLVR. Более того, новая модель достигает этих результатов с меньшим числом траекторий, что указывает на эффективность подхода. Дополнительные анализы показали, что MoT-G повышает степень неопределенности в процессе решения задач, что позволяет модели больше исследовать возможные варианты решения. Этот эффект может быть одной из причин, почему MoT-G превосходит стандартные методы.
## Значимость
Новый подход имеет широкие применения в области NLP (natural language processing), особенно при решении задач, требующих глубокого разума и анализа. Метод не только повышает точность, но и улучшает работу моделей в условиях ограниченных ресурсов, таких как количество траекторий. Это может сделать MoT-G привлекательным для реализации в системах, где необходима быстрая и точная реагирования. Будущими направлениями исследований будет расширение применения MoT-G к другим моделям и задачам, а также исследование новых стратегий для еще большего повышения эффективности.
## Выводы
Мы представили **Mixture of Tokens Generation (MoT
Abstract
Reinforcement learning with verifiable rewards (RLVR) has become a leading
approach for improving large language model (LLM) reasoning capabilities. Most
current methods follow variants of Group Relative Policy Optimization, which
samples multiple reasoning completions, scores them relative to each other, and
adjusts the policy accordingly. However, these approaches invariably sample
discrete tokens at each reasoning step, discarding the rich distributional
information in the model's probability distribution over candidate tokens.
While preserving and utilizing this distributional information has proven
beneficial in non-RL settings, current RLVR methods seem to be unnecessarily
constraining the reasoning search space by not using this information. To
address this limitation, we investigate mixture-of-token generation (MoT-G) in
RLVR. We present a unified framework that generalizes existing MoT-G
approaches, including existing training-free methods that construct mixture
embeddings as weighted sums over token embeddings, and extend RLVR to operate
directly in this continuous mixture space for generating chain-of-thought.
Evaluating two MoT-G variants on Reasoning-Gym, a suite of reasoning-intensive
language tasks, we find that MoT--G methods achieve substantial improvements
(5--35 \% gains on 7 out of 10 tasks) compared to standard decoding with the
Qwen2.5-1.5B model, while reaching comparable accuracy with half the number of
trajectories, suggesting improved training efficiency. Through comprehensive
hidden-state and token-level analyses, we provide evidence that MoT--G's
benefits may stem from its ability to maintain higher hidden-state entropy
throughout the reasoning process and promote exploration in token space.
Ссылки и действия
Дополнительные ресурсы: