StateX: Enhancing RNN Recall via Post-training State Expansion

2509.22630v1 cs.CL, cs.AI, cs.LG 2025-09-30

Авторы:

Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun

Резюме на русском

## Контекст Появление трансформер-базированных моделей стало ключевым моментом в развитии естественного языкового процессинга. Они предлагают выдающиеся результаты во многих задачах, но работа с длинными контекстами остается вызовом из-за их высокой сложности. Альтернативой могут служить реCURRENT neural networks (RNNs), которые обладают постоянной стоимостью обработки токена, что делает их более эффективными для обработки длинных последовательностей. Однако, RNNs сталкиваются с проблемами в точной запоминании данных из длинных контекстов, так как вся информация компрессирована в состояние размера константы. Ранее установлено, что увеличение размера состояния может улучшить recall, но прямой увеличением размера состояния во время обучения связаны высокие затраты. В данной работе мы предлагаем StateX, мощную методологию для эффективного расширения состояний RNNs в рамках пост-обучения. ## Метод StateX представляет собой новую архитектуру для пост-обучения RNNs, которая увеличивает размер состояния без необходимости масштабирования модели. Для линейной аттенции и моделей state space, основной инновацией является расширение рекуррентного состояния через добавление постоянного размера, не прибегая к изменению оптимизации модели. Метод эффективно использует готовые предварительно обученные модели, способствуя повышению их recall-возможностей, не создавая дополнительный финансовый нагрузки или ухудшая другие параметры модели. Это предлагает новый подход к улучшению RNNs, затрагивая их глубину запоминания. ## Результаты Мы проводили эксперименты на популярных рекуррентных моделях, таких как linear attention и state space models, с параметрами до 1.3 миллиардов. Результаты показали, что StateX существенно улучшает recall-возможности в задачах типа in-context learning, когда задачи требуют аккуратной запоминании данных последовательностей. Эксперименты рефлектировали не только на повышение точности решения задач, но и на сохранение стоимости обучения и других качественных параметров. Эти результаты подтверждают эффективность StateX в масштабировании RNNs с минимальными издержками. ## Значимость StateX открывает два главных направления для применения. Во-первых, он позволяет использовать RNNs в задачах, требующих высокой точности восприятия контекста, таких как трансляторы и синтезаторы текста. Во-вторых, он предлагает платформу для улучшения существующих RNN-моделей без необходимости дополнительных ресурсов. Этот подход имеет потенциал для снижения затрат на обучение и улучшения вычислительной эффективности в области естественного языкового процессинга. ## Выводы Мы представили StateX, эффективное решение для улучшения

Abstract

While Transformer-based models have demonstrated remarkable language modeling performance, their high complexities result in high costs when processing long contexts. In contrast, recurrent neural networks (RNNs) such as linear attention and state space models have gained popularity due to their constant per-token complexities. However, these recurrent models struggle with tasks that require accurate recall of contextual information from long contexts, because all contextual information is compressed into a constant-size recurrent state. Previous works have shown that recall ability is positively correlated with the recurrent state size, yet directly training RNNs with larger recurrent states results in high training costs. In this paper, we introduce StateX, a training pipeline for efficiently expanding the states of pre-trained RNNs through post-training. For two popular classes of RNNs, linear attention and state space models, we design post-training architectural modifications to scale up the state size with no or negligible increase in model parameters. Experiments on models up to 1.3B parameters demonstrate that StateX efficiently enhances the recall and in-context learning ability of RNNs without incurring high post-training costs or compromising other capabilities.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

StateX: Enhancing RNN Recall via Post-training State Expansion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация