SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling

2508.15190v1 cs.CL, cs.AI 2025-08-23

Авторы:

Dong Liu, Yanxuan Yu

Резюме на русском

#### Контекст В современной области языковых моделей становится все важнее эффективное обработка длинных контекстов. Одна из ключевых сложностей заключается в том, что существующие методы токенизации, такие как Byte-Pair Encoding (BPE) и WordPiece, оперируют только статистическими признаками частот слов и фрагментов, не учитывая их семантическую структуру. Это приводит к перераспределению между потребностями в точности и эффективности вычислений. Например, в регионах текста с высокой контекстуальной нагрузкой происходит частое разбиение на мелкие токены, что приводит к избыточности. А в областях с низкой информативностью, например, в повторяющихся фрагментах, нет достаточного разбиения, что приводит к увеличению неэффективности вычислений. Таким образом, данный мотивационный факт показывает, что необходимо разработать более гибкий и семантически ориентированный подход к токенизации. #### Метод Для решения этих проблем предлагается **SemToken** — фреймворк, который использует семантические эмбеддинги для оптимизации токенизации. Метод работает следующим образом: сначала используются легковесные семантические кодировщики для получения эмбеддингов для каждого токена. Затем происходит локальная кластеризация, которая объединяет токены с семантически похожей семантикой. На последнем этапе в зависимости от семантической плотности текста задается гранулярность токенизации — токены в богатых семантическим контекстом получают более точное разбиение, в то время как в повторяющихся фрагментах — компрессия. Этот подход позволяет повысить эффективность вычислений, сохранив точность модели. #### Результаты Проведенные эксперименты показали, что **SemToken** эффективно работает в сценариях длинных контекстов. На данных WikiText-103 и LongBench был получен до 2.4-кратный снижение количества токенов, что привело к увеличению скорости работы модели на 1.9 раз. Была проведена сравнительная оценка с BPE и WordPiece, и данные результаты показали, что **SemToken** не только экономит вычислительные ресурсы, но и сохраняет высокую точность в задачах языковой моделирования. Эти результаты подтверждают, что семантическое разбиение текста может быть эффективно использовано для оптимизации моделей языка. #### Значимость **SemToken** может быть применен в различных сценариях, где требуется эффективное обработка длинных текстов, такие как трансляторы, синтезаторы речи и другие модели языка, которые используют длинные контексты. Он позволяет экономить вычислительные ресурсы, не ухудшая качество модели. Благодаря этому, модели могут быть развернуты на устройствах с ограниченным вычислительным мощностью. Например, **SemToken** мож

Abstract

Tokenization plays a critical role in language modeling, yet existing approaches such as Byte-Pair Encoding (BPE) or WordPiece operate purely on frequency statistics, ignoring the underlying semantic structure of text. This leads to over-tokenization of semantically redundant spans and underutilization of contextual coherence, particularly in long-context scenarios. In this work, we propose \textbf{SemToken}, a semantic-aware tokenization framework that jointly reduces token redundancy and improves computation efficiency. SemToken first extracts contextual semantic embeddings via lightweight encoders and performs local semantic clustering to merge semantically equivalent tokens. Then, it allocates heterogeneous token granularity based on semantic density, allowing finer-grained tokenization in content-rich regions and coarser compression in repetitive or low-entropy spans. SemToken can be seamlessly integrated with modern language models and attention acceleration methods. Experiments on long-context language modeling benchmarks such as WikiText-103 and LongBench show that SemToken achieves up to $2.4\times$ reduction in token count and $1.9\times$ speedup, with negligible or no degradation in perplexity and downstream accuracy. Our findings suggest that semantic structure offers a promising new axis for optimizing tokenization and computation in large language models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация