Language models' activations linearly encode training-order recency
2509.14223v1
cs.LG, cs.AI, cs.CL
2025-09-19
Авторы:
Dmitrii Krasheninnikov, Richard E. Turner, David Krueger
Резюме на русском
#### Контекст
Современные языковые модели (Language Models, LMs) являются мощными инструментами, применяемыми в различных областях, от глубокого обучения до прикладных задач. Одна из важных проблем в этой области — хранение и доступ к информации, полученной в процессе обучения. Особенно интересно понять, могут ли модели отличать информацию, полученную раньше от поздней, и как это может влиять на их поведение в задачах обработки естественного языка. Эта проблема становится актуальной в свет новых задач, таких как модификация знаний моделей, где необходимо управлять временным порядком данных.
#### Метод
Для исследования данной проблемы был разработан специальный подход, основанный на последовательном отображении модели Llama-3.2-1B на датасеты, отличающиеся только типом именных сущностей. Это позволило создать модель с известным порядком обучения. Для изучения взаимосвязи между порядком обучения и активациями модели, была проведена аналитическая обработка векторов активаций, включая их проекцию в 2D-пространство. Также были применены линейные пробы (linear probes) для оценки точности разделения "ранних" и "поздних" данных, включая те, которые не принимали участие в обучении пробы.
#### Результаты
Исследование показало, что вектора активаций модели линейно кодируют порядок обучения данных. Это особенно заметно при проекции на два измерения, где центроиды активаций для каждого датасета расположены в точности в порядке их обучения, образуя прямую линию. Кроме того, линейные пробы демонстрируют высокую точность (~90%) в различении "ранних" и "поздних" данных, даже при обучении на независимых датасетах. Модель также была успешно приведена к оценке технических признаков новых сущностей с учетом их временного порядка (~80% точность). Интересно, что эта возможность не связана с простыми изменениями магнитуды активаций или уровнями достоверности.
#### Значимость
Результаты этого исследования подтверждают возможность языковых моделей отличать данные по времени их получения. Это открывает пути к улучшению методов управления знаниями, включая модификацию знаний и решения конфликтов в данных. Полученные результаты могут быть применены в задачах адаптации знаний моделей, преодоления переносной неспецифичности и моделировании временных ситуаций.
#### Выводы
Исследование демонстрирует, что модели языкового моделирования способны отличать данные по времени их обучения, что может быть ключевым моментом для развития технологий управления знаниями. Будущие исследования должны сфокусироваться на углублении понимания этого явления, в том числе изучении структуры хранения временных признаков и раз
Abstract
We show that language models' activations linearly encode when information
was learned during training. Our setup involves creating a model with a known
training order by sequentially fine-tuning Llama-3.2-1B on six disjoint but
otherwise similar datasets about named entities. We find that the average
activations of test samples for the six training datasets encode the training
order: when projected into a 2D subspace, these centroids are arranged exactly
in the order of training and lie on a straight line. Further, we show that
linear probes can accurately (~90%) distinguish "early" vs. "late" entities,
generalizing to entities unseen during the probes' own training. The model can
also be fine-tuned to explicitly report an unseen entity's training stage (~80%
accuracy). Interestingly, this temporal signal does not seem attributable to
simple differences in activation magnitudes, losses, or model confidence. Our
paper demonstrates that models are capable of differentiating information by
its acquisition time, and carries significant implications for how they might
manage conflicting data and respond to knowledge modifications.
Ссылки и действия
Дополнительные ресурсы: