Language models' activations linearly encode training-order recency

2509.14223v1 cs.LG, cs.AI, cs.CL 2025-09-19
Авторы:

Dmitrii Krasheninnikov, Richard E. Turner, David Krueger

Резюме на русском

#### Контекст Современные языковые модели (Language Models, LMs) являются мощными инструментами, применяемыми в различных областях, от глубокого обучения до прикладных задач. Одна из важных проблем в этой области — хранение и доступ к информации, полученной в процессе обучения. Особенно интересно понять, могут ли модели отличать информацию, полученную раньше от поздней, и как это может влиять на их поведение в задачах обработки естественного языка. Эта проблема становится актуальной в свет новых задач, таких как модификация знаний моделей, где необходимо управлять временным порядком данных. #### Метод Для исследования данной проблемы был разработан специальный подход, основанный на последовательном отображении модели Llama-3.2-1B на датасеты, отличающиеся только типом именных сущностей. Это позволило создать модель с известным порядком обучения. Для изучения взаимосвязи между порядком обучения и активациями модели, была проведена аналитическая обработка векторов активаций, включая их проекцию в 2D-пространство. Также были применены линейные пробы (linear probes) для оценки точности разделения "ранних" и "поздних" данных, включая те, которые не принимали участие в обучении пробы. #### Результаты Исследование показало, что вектора активаций модели линейно кодируют порядок обучения данных. Это особенно заметно при проекции на два измерения, где центроиды активаций для каждого датасета расположены в точности в порядке их обучения, образуя прямую линию. Кроме того, линейные пробы демонстрируют высокую точность (~90%) в различении "ранних" и "поздних" данных, даже при обучении на независимых датасетах. Модель также была успешно приведена к оценке технических признаков новых сущностей с учетом их временного порядка (~80% точность). Интересно, что эта возможность не связана с простыми изменениями магнитуды активаций или уровнями достоверности. #### Значимость Результаты этого исследования подтверждают возможность языковых моделей отличать данные по времени их получения. Это открывает пути к улучшению методов управления знаниями, включая модификацию знаний и решения конфликтов в данных. Полученные результаты могут быть применены в задачах адаптации знаний моделей, преодоления переносной неспецифичности и моделировании временных ситуаций. #### Выводы Исследование демонстрирует, что модели языкового моделирования способны отличать данные по времени их обучения, что может быть ключевым моментом для развития технологий управления знаниями. Будущие исследования должны сфокусироваться на углублении понимания этого явления, в том числе изучении структуры хранения временных признаков и раз

Abstract

We show that language models' activations linearly encode when information was learned during training. Our setup involves creating a model with a known training order by sequentially fine-tuning Llama-3.2-1B on six disjoint but otherwise similar datasets about named entities. We find that the average activations of test samples for the six training datasets encode the training order: when projected into a 2D subspace, these centroids are arranged exactly in the order of training and lie on a straight line. Further, we show that linear probes can accurately (~90%) distinguish "early" vs. "late" entities, generalizing to entities unseen during the probes' own training. The model can also be fine-tuned to explicitly report an unseen entity's training stage (~80% accuracy). Interestingly, this temporal signal does not seem attributable to simple differences in activation magnitudes, losses, or model confidence. Our paper demonstrates that models are capable of differentiating information by its acquisition time, and carries significant implications for how they might manage conflicting data and respond to knowledge modifications.

Ссылки и действия