SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling
2508.15190v1
cs.CL, cs.AI
2025-08-23
Авторы:
Dong Liu, Yanxuan Yu
Резюме на русском
#### Контекст
В современной области языковых моделей становится все важнее эффективное обработка длинных контекстов. Одна из ключевых сложностей заключается в том, что существующие методы токенизации, такие как Byte-Pair Encoding (BPE) и WordPiece, оперируют только статистическими признаками частот слов и фрагментов, не учитывая их семантическую структуру. Это приводит к перераспределению между потребностями в точности и эффективности вычислений. Например, в регионах текста с высокой контекстуальной нагрузкой происходит частое разбиение на мелкие токены, что приводит к избыточности. А в областях с низкой информативностью, например, в повторяющихся фрагментах, нет достаточного разбиения, что приводит к увеличению неэффективности вычислений. Таким образом, данный мотивационный факт показывает, что необходимо разработать более гибкий и семантически ориентированный подход к токенизации.
#### Метод
Для решения этих проблем предлагается **SemToken** — фреймворк, который использует семантические эмбеддинги для оптимизации токенизации. Метод работает следующим образом: сначала используются легковесные семантические кодировщики для получения эмбеддингов для каждого токена. Затем происходит локальная кластеризация, которая объединяет токены с семантически похожей семантикой. На последнем этапе в зависимости от семантической плотности текста задается гранулярность токенизации — токены в богатых семантическим контекстом получают более точное разбиение, в то время как в повторяющихся фрагментах — компрессия. Этот подход позволяет повысить эффективность вычислений, сохранив точность модели.
#### Результаты
Проведенные эксперименты показали, что **SemToken** эффективно работает в сценариях длинных контекстов. На данных WikiText-103 и LongBench был получен до 2.4-кратный снижение количества токенов, что привело к увеличению скорости работы модели на 1.9 раз. Была проведена сравнительная оценка с BPE и WordPiece, и данные результаты показали, что **SemToken** не только экономит вычислительные ресурсы, но и сохраняет высокую точность в задачах языковой моделирования. Эти результаты подтверждают, что семантическое разбиение текста может быть эффективно использовано для оптимизации моделей языка.
#### Значимость
**SemToken** может быть применен в различных сценариях, где требуется эффективное обработка длинных текстов, такие как трансляторы, синтезаторы речи и другие модели языка, которые используют длинные контексты. Он позволяет экономить вычислительные ресурсы, не ухудшая качество модели. Благодаря этому, модели могут быть развернуты на устройствах с ограниченным вычислительным мощностью. Например, **SemToken** мож
Abstract
Tokenization plays a critical role in language modeling, yet existing
approaches such as Byte-Pair Encoding (BPE) or WordPiece operate purely on
frequency statistics, ignoring the underlying semantic structure of text. This
leads to over-tokenization of semantically redundant spans and underutilization
of contextual coherence, particularly in long-context scenarios. In this work,
we propose \textbf{SemToken}, a semantic-aware tokenization framework that
jointly reduces token redundancy and improves computation efficiency. SemToken
first extracts contextual semantic embeddings via lightweight encoders and
performs local semantic clustering to merge semantically equivalent tokens.
Then, it allocates heterogeneous token granularity based on semantic density,
allowing finer-grained tokenization in content-rich regions and coarser
compression in repetitive or low-entropy spans. SemToken can be seamlessly
integrated with modern language models and attention acceleration methods.
Experiments on long-context language modeling benchmarks such as WikiText-103
and LongBench show that SemToken achieves up to $2.4\times$ reduction in token
count and $1.9\times$ speedup, with negligible or no degradation in perplexity
and downstream accuracy. Our findings suggest that semantic structure offers a
promising new axis for optimizing tokenization and computation in large
language models.
Ссылки и действия
Дополнительные ресурсы: