Understanding Subword Compositionality of Large Language Models
2508.17953v1
cs.CL, cs.AI, cs.LG
2025-08-27
Авторы:
Qiwei Peng, Yekun Chai, Anders Søgaard
Резюме на русском
## Контекст
Понимание способа формирования слов из подстроковых элементов (субвордов) является ключевой проблемой в анализе и генерации текстов с помощью бо LARGE LANGUAGE MODELS (LLM). LLMs обрабатывают последовательности субвордов, комбинируя их в слова. Эта способность является критической для понимания и генерирования значимых текстов. Несмотря на то, что субворды широко используются в машинном обучении, существуют недостатки в понимании того, как LLM объединяют эти элементы в целостные слова. Эта проблема становится все более актуальной в свет растущего интереса к LLM в области текстового понимания, генерации и доступности. В данной работе мы описываем подробный анализ того, как LLM обрабатывают субворды и компонуют их в слова, чтобы понять, что LLM "видят" в словах и как они это делают.
## Метод
Мы провели три ключевых эксперимента для изучения способа построения слов из подстроковых элементов в LLM: **структурная схожесть**, **семантическое разделение** и **формообразующие черты**.
1. **Структурная схожесть**: Мы измеряли, насколько похожи сложные субворды (например, "un" + "happy") и их соответствующие целые слова (например, "unhappy") на уровне слоев LLM.
2. **Семантическое разделение**: Мы проверяли, насколько хорошо LLM разделяют семантические компоненты слов (например, производные слова, такие как "run" vs. "runner").
3. **Формообразующие черты**: Мы исследовали, насколько LLM устойчивы к формальным особенностям, таким как длина символов и графем.
Эксперименты проводились на 5 представительных LLM семейств, включая BERT, RoBERTa, GPT-2, T5 и XLM-R, чтобы охватить разнообразие подходов.
## Результаты
1. **Структурная схожесть**: Мы обнаружили три различных тренда в эволюции структурной схожести между субвордами и целыми словами в разных слоях LLM. Например, в некоторых слоях субворды становятся все более похожи на слова, в то время как в других наблюдается обратный эффект.
2. **Семантическое разделение**: Мы выяснили, насколько хорошо LLM выполняют семантическое разделение в разных слоях. Например, в некоторых слоях LLM показывают высокую точность в различении производных слов (например, "run" vs. "runner"), в то время как в других это делается с меньшей точностью.
3. **Формообразующие черты**: Мы обнаружили, что LLM отличаются в устойчивости к формальным особенностям, таким как длина символов и графем. Например, некоторые модели чувствительны к длине символов, в то время как другие — нет.
## Значимость
Наши результаты демонстрируют, что LLM могут быть к
Abstract
Large language models (LLMs) take sequences of subwords as input, requiring
them to effective compose subword representations into meaningful word-level
representations. In this paper, we present a comprehensive set of experiments
to probe how LLMs compose subword information, focusing on three key aspects:
structural similarity, semantic decomposability, and form retention. Our
analysis of the experiments suggests that these five LLM families can be
classified into three distinct groups, likely reflecting difference in their
underlying composition strategies. Specifically, we observe (i) three distinct
patterns in the evolution of structural similarity between subword compositions
and whole-word representations across layers; (ii) great performance when
probing layer by layer their sensitivity to semantic decompositionality; and
(iii) three distinct patterns when probing sensitivity to formal features,
e.g., character sequence length. These findings provide valuable insights into
the compositional dynamics of LLMs and highlight different compositional
pattens in how LLMs encode and integrate subword information.
Ссылки и действия
Дополнительные ресурсы: