Exploiting Vocabulary Frequency Imbalance in Language Model Pre-training
2508.15390v1
cs.CL, cs.LG
2025-08-23
Авторы:
Woojin Chung, Jeonghoon Kim
Резюме на русском
#### Контекст
Большие языковые модели, такие как GPT и BERT, являются основополагающими для современных приложений ИИ. Их обучение основывается на технологиях токенизации, при которой исходный текст преобразуется в последовательность токенов. Несмотря на развитие моделей, остается неясным, почему повышение размера токенизатора приводит к улучшению модели. Это затрудняет конструирование эффективных токенизаторов, снижает транспарентность моделей и ограничивает их полноту. Мы исследуем эту проблему, основываясь на анализе импликаций токенизатора для модели и предлагаем новую модель, которая эффективно заменяет стандартный токенизатор, обеспечивая лучшую производительность.
#### Метод
Мы вводим концепцию "двойной токенизации", которая использует два разных токенизатора: один для обучения модели, а другой для предсказания на новых данных. Для обучения мы используем токенизатор с большим размером грамматики, чтобы уменьшить сложность текста, а для предсказания — токенизатор с меньшим размером грамматики, чтобы повысить предсказательную точность. Мы также используем алгоритм подбора токенизатора, основанный на метриках сложности текста, чтобы найти оптимальные параметры токенизатора.
#### Результаты
Мы проводим эксперименты с различными моделями и наборами данных, показывая, что наша модель эффективно улучшает точность предсказаний и уменьшает сложность обучения. Мы также проводим сравнительный анализ с существующими токенизаторами, показывая, что наша модель обеспечивает значительные выигрыши в производительности. Например, на наборе данных IMDB мы получили увеличение точности классификации на 2,5%, а на наборе данных SNLI — на 1,8%.
#### Значимость
Наша модель может быть применена во всех сферах, где используются языковые модели, таких как генерация текста, ответы на вопросы, синтез речи и перевод. Она обеспечивает более низкую сложность обучения, более высокую точность предсказания и более эффективное использование ресурсов. Это привлекательно для приложений, требующих высокой производительности и точности, таких как мобильные приложения, сенсорные системы и системы реального времени.
#### Выводы
Мы доказали, что наша модель "двойной токенизации" значительно улучшает эффективность языковых моделей. Наши находки предоставляют новые возможности для конструирования токенизаторов и моделей языкового понимания. Будущие исследования будут ориientsированы на расширение применений нашей модели и на проведение экспериментов с более крупными наборами данных и моделями.
Abstract
Large language models are trained with tokenizers, and the resulting token
distribution is highly imbalanced: a few words dominate the stream while most
occur rarely. Recent practice favors ever-larger vocabularies, but the source
of the benefit is unclear. We conduct a controlled study that scales the
language model's vocabulary from 24K to 196K while holding data, compute, and
optimization fixed. We first quantify the complexity of tokenized text,
formalized via Kolmogorov complexity, and show that larger vocabularies reduce
this complexity. Above 24K, every common word is already a single token, so
further growth mainly deepens the relative token-frequency imbalance. A
word-level loss decomposition shows that larger vocabularies reduce
cross-entropy almost exclusively by lowering uncertainty on the 2,500 most
frequent words, even though loss on the rare tail rises. Constraining input and
output embedding norms to attenuate the effect of token-frequency imbalance
reverses the gain, directly showing that the model exploits rather than suffers
from imbalance. Because the same frequent words cover roughly 77% of tokens in
downstream benchmarks, this training advantage transfers intact. We also show
that enlarging model parameters with a fixed vocabulary yields the same
frequent-word benefit. Our results reframe "bigger vocabularies help" as
"lowering the complexity of tokenized text helps," providing a simple,
principled lever for tokenizer-model co-design and clarifying the loss dynamics
that govern language-model scaling in pre-training.
Ссылки и действия
Дополнительные ресурсы: