Word Meanings in Transformer Language Models

2508.12863v1 cs.CL, cs.AI 2025-08-20
Авторы:

Jumbly Grindrod, Peter Grindrod

Резюме на русском

## Контекст Transformer language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, которые пользуются широким применением в различных областях. Одна из основных задач, связанных с этими моделями, заключается в понимании того, как они представляют и обрабатывают семантическую информацию. Несмотря на выдающиеся результаты, существует теоретическая проблема: непонятно, используют ли эти модели что-то подобное традиционной лексико-семантической системе (lexical store), где каждому слову соответствует определенный набор семантических свойств. Мотивация для данного исследования состоит в том, чтобы раскрыть, насколько LLMs, в частности transformer-модели, зависят от хранения лексической информации в виде отдельных "записей" для каждого слова. ## Метод Для изучения этой проблемы авторы применяют методику, основанную на анализе токен-эмбеддингов RoBERTa-base, полученных с помощью предварительно обученной модели. Они разбивают пространство токен-эмбеддингов на 200 кластеров с помощью алгоритма k-means. В первом этапе исследования проводится ручной анализ этих кластеров, чтобы определить, содержат ли они семантическую информацию. Во втором этапе исследования, кластеры тестируются с помощью пяти психолингвистических мер: valence, concreteness, iconicity, taboo и age of acquisition. Эти меры позволяют оценить, насколько кластеры реагируют на семантические и синтаксические свойства слов. ## Результаты Эксперименты показали, что в пространстве токен-эмбеддингов RoBERTa-base достаточное количество семантической информации хранится в виде кластеров, которые реагируют на психолингвистические меры. Это означает, что семантическая информация не хранится в виде отдельных, изолированных "записей" для каждого слова, но вместе с другими словами в зависимости от контекста. Нахождение нескольких лексических кластеров, реагирующих на психолингвистические признаки, указывает на то, что лексическая информация в LLMs процессируется не статически, а в зависимости от контекста. Это позволяет опровергнуть теории, которые считают, что transformer-модели не обрабатывают семантическую информацию. ## Значимость Изучение того, как transformer-модели обрабатывают семантическую информацию, имеет значительное значение для понимания их работы в области естественного языка. Это исследование открывает пути для более тонкого понимания процесса обучения моделей, а также может иметь важное применение в области естественного языка и текстового понимания. Кроме того, найденные результаты могут способствовать развитию новых методов для психолингвистического исследования языка. ## Выводы Результаты исследования показывают, что transformer-модели, такие

Abstract

We investigate how word meanings are represented in the transformer language models. Specifically, we focus on whether transformer models employ something analogous to a lexical store - where each word has an entry that contains semantic information. To do this, we extracted the token embedding space of RoBERTa-base and k-means clustered it into 200 clusters. In our first study, we then manually inspected the resultant clusters to consider whether they are sensitive to semantic information. In our second study, we tested whether the clusters are sensitive to five psycholinguistic measures: valence, concreteness, iconicity, taboo, and age of acquisition. Overall, our findings were very positive - there is a wide variety of semantic information encoded within the token embedding space. This serves to rule out certain "meaning eliminativist" hypotheses about how transformer LLMs process semantic information.

Ссылки и действия