MoVoC: Morphology-Aware Subword Construction for Geez Script Languages

2509.08812v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3 2025-09-12
Авторы:

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

Резюме на русском

#### Контекст Область исследования сосредотачивается на развитии эффективных методов токенизации для низкоресурсных языков, особенно тех, которые используют геезский алфавит. Такие языки чертятся высоким уровнем морфологической сложности, что создает специфические проблемы для существующих систем токенизации. Основными проблемами являются несохранение морфологических границ при разбиении слов и неэффективность работы существующих методов в условиях ограниченных данных. Данные проблемы сильно сказываются на качестве трансляции и интерпретации текстов. Мотивация заключается в разработке метода, который сохранит морфологическую целостность при эффективном использовании ресурсов. #### Метод Метод, предложенный в работе, называется MoVoC (Morpheme-aware Subword Vocabulary Construction). Он сочетает морфологический анализ и Byte Pair Encoding (BPE) для построения токенов. Морфологический анализ используется для сохранения морфологических границ, а BPE обеспечивает эффективное представление лексического материала. Для обучения и тестирования токенизатора был создан новый набор данных, подготовленный вручную, включающий в себя морфологические морфологические данные для 4 языков, использующих геезский алфавит. Метод также включает в себя морфологический счетчик MorphoScore и метрику Boundary Precision для оценки качества. #### Результаты Проведенные эксперименты показали, что MoVoC-Tok предоставляет важные преимущества в части сохранения морфологии в токенах. Он существенно улучшает MorphoScore и Boundary Precision по сравнению с традиционными методами токенизации, такими как SentencePiece. Однако значительные улучшения в качестве автоматической трансляции не были выявлены, что может быть связано с ограниченным размером выборки и высокой сложностью языка. Тем не менее, результаты демонстрируют, что MoVoC-Tok эффективно работает в условиях ограниченных ресурсов, когда требуется точное разделение морфологических единиц. #### Значимость Метод MoVoC имеет широкие перспективы в области низкоресурсных морфологически сложных языков. Он может применяться в системах машинного перевода, синтеза речи и анализа текстов в геезских языках. Одним из основных преимуществ является более точный токенизатор, который сохраняет значимость морфологических границ. Это влияет на качество трансляции, обеспечивает лучшую лексическую и морфологическую точность. Будущие исследования будут сконцентрированы на увеличении размера данных и расширении применимости метода к другим геезским языкам. #### Выводы Предложенный в работе MoVoC является значитель

Abstract

Subword-based tokenization methods often fail to preserve morphological boundaries, a limitation especially pronounced in low-resource, morphologically complex languages such as those written in the Geez script. To address this, we present MoVoC (Morpheme-aware Subword Vocabulary Construction) and train MoVoC-Tok, a tokenizer that integrates supervised morphological analysis into the subword vocabulary. This hybrid segmentation approach combines morpheme-based and Byte Pair Encoding (BPE) tokens to preserve morphological integrity while maintaining lexical meaning. To tackle resource scarcity, we curate and release manually annotated morpheme data for four Geez script languages and a morpheme-aware vocabulary for two of them. While the proposed tokenization method does not lead to significant gains in automatic translation quality, we observe consistent improvements in intrinsic metrics, MorphoScore, and Boundary Precision, highlighting the value of morphology-aware segmentation in enhancing linguistic fidelity and token efficiency. Our morpheme-annotated datasets and tokenizer will be publicly available to support further research in low-resource, morphologically rich languages. Our code and data are available on GitHub: https://github.com/hailaykidu/MoVoC

Ссылки и действия