MoVoC: Morphology-Aware Subword Construction for Geez Script Languages
2509.08812v1
cs.CL, cs.AI, I.2.7; I.2.6; H.3.3
2025-09-12
Авторы:
Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl
Резюме на русском
#### Контекст
Область исследования сосредотачивается на развитии эффективных методов токенизации для низкоресурсных языков, особенно тех, которые используют геезский алфавит. Такие языки чертятся высоким уровнем морфологической сложности, что создает специфические проблемы для существующих систем токенизации. Основными проблемами являются несохранение морфологических границ при разбиении слов и неэффективность работы существующих методов в условиях ограниченных данных. Данные проблемы сильно сказываются на качестве трансляции и интерпретации текстов. Мотивация заключается в разработке метода, который сохранит морфологическую целостность при эффективном использовании ресурсов.
#### Метод
Метод, предложенный в работе, называется MoVoC (Morpheme-aware Subword Vocabulary Construction). Он сочетает морфологический анализ и Byte Pair Encoding (BPE) для построения токенов. Морфологический анализ используется для сохранения морфологических границ, а BPE обеспечивает эффективное представление лексического материала. Для обучения и тестирования токенизатора был создан новый набор данных, подготовленный вручную, включающий в себя морфологические морфологические данные для 4 языков, использующих геезский алфавит. Метод также включает в себя морфологический счетчик MorphoScore и метрику Boundary Precision для оценки качества.
#### Результаты
Проведенные эксперименты показали, что MoVoC-Tok предоставляет важные преимущества в части сохранения морфологии в токенах. Он существенно улучшает MorphoScore и Boundary Precision по сравнению с традиционными методами токенизации, такими как SentencePiece. Однако значительные улучшения в качестве автоматической трансляции не были выявлены, что может быть связано с ограниченным размером выборки и высокой сложностью языка. Тем не менее, результаты демонстрируют, что MoVoC-Tok эффективно работает в условиях ограниченных ресурсов, когда требуется точное разделение морфологических единиц.
#### Значимость
Метод MoVoC имеет широкие перспективы в области низкоресурсных морфологически сложных языков. Он может применяться в системах машинного перевода, синтеза речи и анализа текстов в геезских языках. Одним из основных преимуществ является более точный токенизатор, который сохраняет значимость морфологических границ. Это влияет на качество трансляции, обеспечивает лучшую лексическую и морфологическую точность. Будущие исследования будут сконцентрированы на увеличении размера данных и расширении применимости метода к другим геезским языкам.
#### Выводы
Предложенный в работе MoVoC является значитель
Abstract
Subword-based tokenization methods often fail to preserve morphological
boundaries, a limitation especially pronounced in low-resource, morphologically
complex languages such as those written in the Geez script. To address this, we
present MoVoC (Morpheme-aware Subword Vocabulary Construction) and train
MoVoC-Tok, a tokenizer that integrates supervised morphological analysis into
the subword vocabulary. This hybrid segmentation approach combines
morpheme-based and Byte Pair Encoding (BPE) tokens to preserve morphological
integrity while maintaining lexical meaning. To tackle resource scarcity, we
curate and release manually annotated morpheme data for four Geez script
languages and a morpheme-aware vocabulary for two of them. While the proposed
tokenization method does not lead to significant gains in automatic translation
quality, we observe consistent improvements in intrinsic metrics, MorphoScore,
and Boundary Precision, highlighting the value of morphology-aware segmentation
in enhancing linguistic fidelity and token efficiency. Our morpheme-annotated
datasets and tokenizer will be publicly available to support further research
in low-resource, morphologically rich languages. Our code and data are
available on GitHub: https://github.com/hailaykidu/MoVoC