Reinforced Context Order Recovery for Adaptive Reasoning and Planning

2508.13070v1 cs.CL, cs.AI 2025-08-20
Авторы:

Long Ma, Fangwei Zhong, Yizhou Wang

Резюме на русском

## Контекст Ускоренное развитие генеративных моделей, таких как расширенные языковые модели и модели распределенного диффузия, позволило генерировать разнообразный и полезный контент. Однако эти модели обычно тренируются на токенах с фиксированным или случайным порядком, что может не соответствовать логическому порядку во входных данных. Это ограничивает их эффективность при решении задач, требующих точного понимания логической структуры. Например, в задачах решательского и планового характера необходимо выбирать токены в зависимости от контекста и целей задачи. Мы отметили, что существующие подходы недостаточно адаптивны для этих задач. Мы использовали $V$-информационное представление для оценки трудности последовательного выбора токенов в задачах с адаптивными требованиями выбора. Это вдохновило на разработку метода Reinforced Context Order Recovery (ReCOR). ## Метод ReCOR представляет собой фреймворк с подкреплением, позволяющий выбирать порядок генерации токенов адаптивно в зависимости от контекста. Мы использовали статистику токенов в обучении, чтобы оценить сложность каждого токена. Решение включает модельную архитектуру, которая статистически оценивает трудность подбора токенов и выбирает следующий токен в процессе обучения и реального выполнения. Метод позволяет автоматически определять порядок генерации токенов без использования дополнительных меток, что делает его универсальным для различных задач. ## Результаты Мы провели эксперименты на нескольких сложных датасетах, включая задачи резолюции и планирования. Резалты показали, что ReCOR превосходит базовые модели и в некоторых случаях даже оверперформит модели, оснащенные доступом к истинному порядку токенов. Наши эксперименты также продемонстрировали, что ReCOR может адаптироваться к различным типам задач, повышая точность решения. ## Значимость Важность ReCOR заключается в его подходе к адаптивной генерации порядка токенов, который позволяет лучше решать задачи, требующие логического порядка. Метод может использоваться в различных областях, включая планирование, решение проблем, интеллектуальные системы и анализ текста. Этот подход представляет собой новую методологию, которая может улучшить качество решений и увеличить эффективность генеративных моделей в адаптивных задачах. ## Выводы Мы представляем ReCOR, продвигающийся подход для адаптивного выбора порядка генерации токенов. Этот подход позволяет моделям достигать высокого качества решения задач, сохраняя гибкость и адаптивность. Мы планируем продолжить исследования в этой области, особенно с точки зрения улучшения моделей и их применения в реальных

Abstract

Modern causal language models, followed by rapid developments in discrete diffusion models, can now produce a wide variety of interesting and useful content. However, these families of models are predominantly trained to output tokens with a fixed (left-to-right) or random order, which may deviate from the logical order in which tokens are generated originally. In this paper, we observe that current causal and diffusion models encounter difficulties in problems that require adaptive token generation orders to solve tractably, which we characterize with the $\mathcal{V}$-information framework. Motivated by this, we propose Reinforced Context Order Recovery (ReCOR), a reinforcement-learning-based framework to extract adaptive, data-dependent token generation orders from text data without annotations. Self-supervised by token prediction statistics, ReCOR estimates the hardness of predicting every unfilled token and adaptively selects the next token during both training and inference. Experiments on challenging reasoning and planning datasets demonstrate the superior performance of ReCOR compared with baselines, sometimes outperforming oracle models supervised with the ground-truth order.

Ссылки и действия