Human-like fleeting memory improves language learning but impairs reading time prediction in transformer language models
2508.05803v1
cs.CL, I.2.7
2025-08-12
Авторы:
Abishek Thamma, Micha Heilbron
Резюме на русском
#### Контекст
Исследование посвящено изучению влияния кратковременной памяти на обучение языка с помощью трансформеров, а также на предсказание читательских времен. Трансформеры — мощные языковые модели, которые обладают выдающимися способностями обучения языку. Однако существуют теоретические работы, предполагающие, что кратковременная память, характерная для человеческого мозга, может улучшать обучение языку нейронными сетями, несмотря на отсутствие таковой в трансформерах. Этот эксперимент призван протестировать эту гипотезу и уточнить потенциальные преимущества кратковременной памяти в обучении языку.
#### Метод
Для исследования были созданы две модели трансформера: одна с возможностью использовать кратковременную память, а другая — без нее. Обучение производилось на реалистичном наборе данных, представляющих собой синтаксически и семантически сложные фразы. Модели оценивались с помощью традиционных метрик языковой моделирования и методов, оценивающих читательский сюрприз (surprisal). Для тестирования способности предсказать читательские времена использовались человеческие данные в качестве признаков.
#### Результаты
На экспериментальных данных кратковременная память подтвердилась как фактор, улучшающий обучение языка. Модели с кратковременной памятью показали лучшие результаты в общем языковом моделировании и на целевых тестах синтаксических сетей. Однако результаты чтения показали неожиданный эффект: модели с кратковременной памятью предсказывали читательские времена хуже, чем модели без нее. Это отличие не могло быть объяснено причинами, известными ранее, такими как различия в управлении вниманием или в кодировании частей речи.
#### Значимость
Результаты имеют значение как для практики обучения моделей языка, так и для теоретического понимания их работы. Изучение кратковременной памяти может привести к улучшению языковых моделей в области обучения и генерации текста. Тем не менее, результаты свидетельствуют о необходимости дополнительных исследований для точного понимания взаимосвязи между памятьными ограничениями и предсказанием читательских времен.
#### Выводы
Исследование подтвердило преимущество кратковременной памяти для обучения языка, но также открыло новую проблему — потенциальное несовпадение предсказаний читательских времен. Этот феномен может стать акцентом для будущих исследований, направленных на уточнение моделей языка и их взаимодействия с человеческим моделированием. Это демонстрирует, что нейронные сети могут иметь разные сильные стороны в
Abstract
Human memory is fleeting. As words are processed, the exact wordforms that
make up incoming sentences are rapidly lost. Cognitive scientists have long
believed that this limitation of memory may, paradoxically, help in learning
language - an idea supported by classic connectionist modelling work. The rise
of Transformers appears to challenge this idea, as these models can learn
language effectively, despite lacking memory limitations or other architectural
recency biases. Here, we investigate the hypothesized benefit of fleeting
memory for language learning in tightly controlled experiments on transformer
language models. Training transformers with and without fleeting memory on a
developmentally realistic training set, we find that fleeting memory
consistently improves language learning (as quantified by both overall language
modelling performance and targeted syntactic evaluation) but, unexpectedly,
impairs surprisal-based prediction of human reading times. Interestingly,
follow up analyses revealed that this discrepancy - better language modeling,
yet worse reading time prediction - could not be accounted for by prior
explanations of why better language models sometimes fit human reading time
worse. Together, these results support a benefit of memory limitations on
neural network language learning - but not on predicting behavior.
Ссылки и действия
Дополнительные ресурсы: