Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment

2508.08424v1 cs.CL, cs.AI 2025-08-14
Авторы:

Saketh Reddy Vemula, Dipti Mishra Sharma, Parameswari Krishnamurthy

Резюме на русском

## Контекст Современные языковые модели (Language Models, LM) требуют эффективных методов токенизации для обработки текстов различных языков. Хотя на большинстве типичных языков (например, английского) существуют успешные токенизаторы, для языков с богатым морфологическим разнообразием (например, хинди или телугу) эта задача остается трудной. Несколько работ показали, что морфологически алергентанные подходы могут улучшить работу LM, но результаты остаются неоднозначными. Наша мотивация заключается в разборе этих феноменов и поиске оптимальных токенизаторов для таких языков. ## Метод Мы использовали три типичных токенизатора: Byte-Pair Encoding (BPE), Unigram, и Morphological Tokenizer. Для телугу, хинди и английского мы сравнили их на широком наборе задач: POS-тэггинга, NER и деревянного разбора. Для телугу, мы создали специальный набор данных с золотыми морфемными разбиениями для 600 деривационных и 7000 инфлекционных слов. Таким образом, мы могли оценить качество токенизации и морфологическую алергентность токенизаторов. ## Результаты Мы выявили, что Unigram-based токенизаторы показали лучшие результаты в большинстве случаев, особенно в задачах, которые используют синтаксические связи. Хотя морфологически алергентанные токенизаторы показали небольшую пользу для задач, связанных с морфологической структурой текста, их влияние оказалось слабее, чем влияние различных токенизаторов. Эксперименты показали, что корпусные метрики (CTC, Rényi entropy) не сильно коррелируют с результатами на датасетах, показав ограниченность их использования для оценки токенизаторов. ## Значимость Наши результаты имеют значение для разработчиков LM, особенно для тех, кто работает с языками с высокой морфологической сложностью. Мы доказали, что токенизаторы Unigram являются оптимальным выбором для многих типичных задач, даже несмотря на то, что морфологическая алергентанность имеет небольшое влияние. Это открывает пути для развития более мощных токенизаторов, оптимизированных для конкретных языков. ## Выводы Мы проанализировали три метода токенизации на трех языках с разными морфологическими особенностями. Мы отметили, что Unigram-based токенизаторы превосходят другие подходы в большинстве случаев, особенно в задачах синтаксиса. Наше исследование указывает на необходимость развития морфологически алергентанных методов токенизации, которые могут дополнительно улучшить работу LM. Будущие исследования будут ориентированы на улучшение токенизированных единиц для языков с высокой морфологической сложностью.

Abstract

Prior work on language modeling showed conflicting findings about whether morphologically aligned approaches to tokenization improve performance, particularly for languages with complex morphology. To investigate this, we select a typologically diverse set of languages: Telugu (agglutinative), Hindi (primarily fusional with some agglutination), and English (fusional). We conduct a comprehensive evaluation of language models -- starting from tokenizer training and extending through the finetuning and downstream task evaluation. To account for the consistent performance differences observed across tokenizer variants, we focus on two key factors: morphological alignment and tokenization quality. To assess morphological alignment of tokenizers in Telugu, we create a dataset containing gold morpheme segmentations of 600 derivational and 7000 inflectional word forms. Our experiments reveal that better morphological alignment correlates positively -- though moderately -- with performance in syntax-based tasks such as Parts-of-Speech tagging, Named Entity Recognition and Dependency Parsing. However, we also find that the tokenizer algorithm (Byte-pair Encoding vs. Unigram) plays a more significant role in influencing downstream performance than morphological alignment alone. Naive Unigram tokenizers outperform others across most settings, though hybrid tokenizers that incorporate morphological segmentation significantly improve performance within the BPE framework. In contrast, intrinsic metrics like Corpus Token Count (CTC) and R\'enyi entropy showed no correlation with downstream performance.

Ссылки и действия