## Контекст
Transformer language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, которые пользуются широким применением в различных областях. Одна из основных задач, связанных с этими моделями, заключается в понимании того, как они представляют и обрабатывают семантическую информацию. Несмотря на выдающиеся результаты, существует теоретическая проблема: непонятно, используют ли эти модели что-то подобное традиционной лексико-семантической системе (lexical store), где каждому слову соответствует определенный набор семантических свойств. Мотивация для данного исследования состоит в том, чтобы раскрыть, насколько LLMs, в частности transformer-модели, зависят от хранения лексической информации в виде отдельных "записей" для каждого слова.
## Метод
Для изучения этой проблемы авторы применяют методику, основанную на анализе токен-эмбеддингов RoBERTa-base, полученных с помощью предварительно обученной модели. Они разбивают пространство токен-эмбеддингов на 200 кластеров с помощью алгоритма k-means. В первом этапе исследования проводится ручной анализ этих кластеров, чтобы определить, содержат ли они семантическую информацию. Во втором этапе исследования, кластеры тестируются с помощью пяти психолингвистических мер: valence, concreteness, iconicity, taboo и age of acquisition. Эти меры позволяют оценить, насколько кластеры реагируют на семантические и синтаксические свойства слов.
## Результаты
Эксперименты показали, что в пространстве токен-эмбеддингов RoBERTa-base достаточное количество семантической информации хранится в виде кластеров, которые реагируют на психолингвистические меры. Это означает, что семантическая информация не хранится в виде отдельных, изолированных "записей" для каждого слова, но вместе с другими словами в зависимости от контекста. Нахождение нескольких лексических кластеров, реагирующих на психолингвистические признаки, указывает на то, что лексическая информация в LLMs процессируется не статически, а в зависимости от контекста. Это позволяет опровергнуть теории, которые считают, что transformer-модели не обрабатывают семантическую информацию.
## Значимость
Изучение того, как transformer-модели обрабатывают семантическую информацию, имеет значительное значение для понимания их работы в области естественного языка. Это исследование открывает пути для более тонкого понимания процесса обучения моделей, а также может иметь важное применение в области естественного языка и текстового понимания. Кроме того, найденные результаты могут способствовать развитию новых методов для психолингвистического исследования языка.
## Выводы
Результаты исследования показывают, что transformer-модели, такие