Understanding Subword Compositionality of Large Language Models

2508.17953v1 cs.CL, cs.AI, cs.LG 2025-08-27

Авторы:

Qiwei Peng, Yekun Chai, Anders Søgaard

Резюме на русском

## Контекст Понимание способа формирования слов из подстроковых элементов (субвордов) является ключевой проблемой в анализе и генерации текстов с помощью бо LARGE LANGUAGE MODELS (LLM). LLMs обрабатывают последовательности субвордов, комбинируя их в слова. Эта способность является критической для понимания и генерирования значимых текстов. Несмотря на то, что субворды широко используются в машинном обучении, существуют недостатки в понимании того, как LLM объединяют эти элементы в целостные слова. Эта проблема становится все более актуальной в свет растущего интереса к LLM в области текстового понимания, генерации и доступности. В данной работе мы описываем подробный анализ того, как LLM обрабатывают субворды и компонуют их в слова, чтобы понять, что LLM "видят" в словах и как они это делают. ## Метод Мы провели три ключевых эксперимента для изучения способа построения слов из подстроковых элементов в LLM: **структурная схожесть**, **семантическое разделение** и **формообразующие черты**. 1. **Структурная схожесть**: Мы измеряли, насколько похожи сложные субворды (например, "un" + "happy") и их соответствующие целые слова (например, "unhappy") на уровне слоев LLM. 2. **Семантическое разделение**: Мы проверяли, насколько хорошо LLM разделяют семантические компоненты слов (например, производные слова, такие как "run" vs. "runner"). 3. **Формообразующие черты**: Мы исследовали, насколько LLM устойчивы к формальным особенностям, таким как длина символов и графем. Эксперименты проводились на 5 представительных LLM семейств, включая BERT, RoBERTa, GPT-2, T5 и XLM-R, чтобы охватить разнообразие подходов. ## Результаты 1. **Структурная схожесть**: Мы обнаружили три различных тренда в эволюции структурной схожести между субвордами и целыми словами в разных слоях LLM. Например, в некоторых слоях субворды становятся все более похожи на слова, в то время как в других наблюдается обратный эффект. 2. **Семантическое разделение**: Мы выяснили, насколько хорошо LLM выполняют семантическое разделение в разных слоях. Например, в некоторых слоях LLM показывают высокую точность в различении производных слов (например, "run" vs. "runner"), в то время как в других это делается с меньшей точностью. 3. **Формообразующие черты**: Мы обнаружили, что LLM отличаются в устойчивости к формальным особенностям, таким как длина символов и графем. Например, некоторые модели чувствительны к длине символов, в то время как другие — нет. ## Значимость Наши результаты демонстрируют, что LLM могут быть к

Abstract

Large language models (LLMs) take sequences of subwords as input, requiring them to effective compose subword representations into meaningful word-level representations. In this paper, we present a comprehensive set of experiments to probe how LLMs compose subword information, focusing on three key aspects: structural similarity, semantic decomposability, and form retention. Our analysis of the experiments suggests that these five LLM families can be classified into three distinct groups, likely reflecting difference in their underlying composition strategies. Specifically, we observe (i) three distinct patterns in the evolution of structural similarity between subword compositions and whole-word representations across layers; (ii) great performance when probing layer by layer their sensitivity to semantic decompositionality; and (iii) three distinct patterns when probing sensitivity to formal features, e.g., character sequence length. These findings provide valuable insights into the compositional dynamics of LLMs and highlight different compositional pattens in how LLMs encode and integrate subword information.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Understanding Subword Compositionality of Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация