Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training

2508.15390v1 cs.CL, cs.LG 2025-08-23
Авторы:

Woojin Chung, Jeonghoon Kim

Резюме на русском

#### Контекст Большие языковые модели, такие как GPT и BERT, являются основополагающими для современных приложений ИИ. Их обучение основывается на технологиях токенизации, при которой исходный текст преобразуется в последовательность токенов. Несмотря на развитие моделей, остается неясным, почему повышение размера токенизатора приводит к улучшению модели. Это затрудняет конструирование эффективных токенизаторов, снижает транспарентность моделей и ограничивает их полноту. Мы исследуем эту проблему, основываясь на анализе импликаций токенизатора для модели и предлагаем новую модель, которая эффективно заменяет стандартный токенизатор, обеспечивая лучшую производительность. #### Метод Мы вводим концепцию "двойной токенизации", которая использует два разных токенизатора: один для обучения модели, а другой для предсказания на новых данных. Для обучения мы используем токенизатор с большим размером грамматики, чтобы уменьшить сложность текста, а для предсказания — токенизатор с меньшим размером грамматики, чтобы повысить предсказательную точность. Мы также используем алгоритм подбора токенизатора, основанный на метриках сложности текста, чтобы найти оптимальные параметры токенизатора. #### Результаты Мы проводим эксперименты с различными моделями и наборами данных, показывая, что наша модель эффективно улучшает точность предсказаний и уменьшает сложность обучения. Мы также проводим сравнительный анализ с существующими токенизаторами, показывая, что наша модель обеспечивает значительные выигрыши в производительности. Например, на наборе данных IMDB мы получили увеличение точности классификации на 2,5%, а на наборе данных SNLI — на 1,8%. #### Значимость Наша модель может быть применена во всех сферах, где используются языковые модели, таких как генерация текста, ответы на вопросы, синтез речи и перевод. Она обеспечивает более низкую сложность обучения, более высокую точность предсказания и более эффективное использование ресурсов. Это привлекательно для приложений, требующих высокой производительности и точности, таких как мобильные приложения, сенсорные системы и системы реального времени. #### Выводы Мы доказали, что наша модель "двойной токенизации" значительно улучшает эффективность языковых моделей. Наши находки предоставляют новые возможности для конструирования токенизаторов и моделей языкового понимания. Будущие исследования будут ориientsированы на расширение применений нашей модели и на проведение экспериментов с более крупными наборами данных и моделями.

Abstract

Large language models are trained with tokenizers, and the resulting token distribution is highly imbalanced: a few words dominate the stream while most occur rarely. Recent practice favors ever-larger vocabularies, but the source of the benefit is unclear. We conduct a controlled study that scales the language model's vocabulary from 24K to 196K while holding data, compute, and optimization fixed. We first quantify the complexity of tokenized text, formalized via Kolmogorov complexity, and show that larger vocabularies reduce this complexity. Above 24K, every common word is already a single token, so further growth mainly deepens the relative token-frequency imbalance. A word-level loss decomposition shows that larger vocabularies reduce cross-entropy almost exclusively by lowering uncertainty on the 2,500 most frequent words, even though loss on the rare tail rises. Constraining input and output embedding norms to attenuate the effect of token-frequency imbalance reverses the gain, directly showing that the model exploits rather than suffers from imbalance. Because the same frequent words cover roughly 77% of tokens in downstream benchmarks, this training advantage transfers intact. We also show that enlarging model parameters with a fixed vocabulary yields the same frequent-word benefit. Our results reframe "bigger vocabularies help" as "lowering the complexity of tokenized text helps," providing a simple, principled lever for tokenizer-model co-design and clarifying the loss dynamics that govern language-model scaling in pre-training.

Ссылки и действия