StateX: Enhancing RNN Recall via Post-training State Expansion
2509.22630v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Xingyu Shen, Yingfa Chen, Zhen Leng Thai, Xu Han, Zhiyuan Liu, Maosong Sun
Резюме на русском
## Контекст
Появление трансформер-базированных моделей стало ключевым моментом в развитии естественного языкового процессинга. Они предлагают выдающиеся результаты во многих задачах, но работа с длинными контекстами остается вызовом из-за их высокой сложности. Альтернативой могут служить реCURRENT neural networks (RNNs), которые обладают постоянной стоимостью обработки токена, что делает их более эффективными для обработки длинных последовательностей. Однако, RNNs сталкиваются с проблемами в точной запоминании данных из длинных контекстов, так как вся информация компрессирована в состояние размера константы. Ранее установлено, что увеличение размера состояния может улучшить recall, но прямой увеличением размера состояния во время обучения связаны высокие затраты. В данной работе мы предлагаем StateX, мощную методологию для эффективного расширения состояний RNNs в рамках пост-обучения.
## Метод
StateX представляет собой новую архитектуру для пост-обучения RNNs, которая увеличивает размер состояния без необходимости масштабирования модели. Для линейной аттенции и моделей state space, основной инновацией является расширение рекуррентного состояния через добавление постоянного размера, не прибегая к изменению оптимизации модели. Метод эффективно использует готовые предварительно обученные модели, способствуя повышению их recall-возможностей, не создавая дополнительный финансовый нагрузки или ухудшая другие параметры модели. Это предлагает новый подход к улучшению RNNs, затрагивая их глубину запоминания.
## Результаты
Мы проводили эксперименты на популярных рекуррентных моделях, таких как linear attention и state space models, с параметрами до 1.3 миллиардов. Результаты показали, что StateX существенно улучшает recall-возможности в задачах типа in-context learning, когда задачи требуют аккуратной запоминании данных последовательностей. Эксперименты рефлектировали не только на повышение точности решения задач, но и на сохранение стоимости обучения и других качественных параметров. Эти результаты подтверждают эффективность StateX в масштабировании RNNs с минимальными издержками.
## Значимость
StateX открывает два главных направления для применения. Во-первых, он позволяет использовать RNNs в задачах, требующих высокой точности восприятия контекста, таких как трансляторы и синтезаторы текста. Во-вторых, он предлагает платформу для улучшения существующих RNN-моделей без необходимости дополнительных ресурсов. Этот подход имеет потенциал для снижения затрат на обучение и улучшения вычислительной эффективности в области естественного языкового процессинга.
## Выводы
Мы представили StateX, эффективное решение для улучшения
Abstract
While Transformer-based models have demonstrated remarkable language modeling
performance, their high complexities result in high costs when processing long
contexts. In contrast, recurrent neural networks (RNNs) such as linear
attention and state space models have gained popularity due to their constant
per-token complexities. However, these recurrent models struggle with tasks
that require accurate recall of contextual information from long contexts,
because all contextual information is compressed into a constant-size recurrent
state. Previous works have shown that recall ability is positively correlated
with the recurrent state size, yet directly training RNNs with larger recurrent
states results in high training costs. In this paper, we introduce StateX, a
training pipeline for efficiently expanding the states of pre-trained RNNs
through post-training. For two popular classes of RNNs, linear attention and
state space models, we design post-training architectural modifications to
scale up the state size with no or negligible increase in model parameters.
Experiments on models up to 1.3B parameters demonstrate that StateX efficiently
enhances the recall and in-context learning ability of RNNs without incurring
high post-training costs or compromising other capabilities.
Ссылки и действия
Дополнительные ресурсы: