H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages

2508.05628v1 cs.CL, cs.AI 2025-08-08
Авторы:

Mehrdad Zakershahrak, Samira Ghodratnama

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области языковых моделей (LM) на байтовом уровне существует серьезная проблема, связанная с обработкой языков с богатой морфологией (MRLs). Традиционные модели, основанные на байтовых последовательностях, сталкиваются с высокой вычислительной сложностью, так как слова в таких языках часто занимают большое количество байтов. Кроме того, сложность увеличивается из-за необходимости обрабатывать характеристики морфологии, такие как сложные словоформы и артефакты, например, неразрывные пробелы (ZWNJ) в персидском языке. Существующие решения, такие как BPE-based GPT-2-fa, используют предварительную токенизацию, что приводит к жесткой структуре и ухудшению адаптации к динамически изменяющимся структурам текста. Таким образом, необходимо разработать модель, способную обрабатывать морфологические особенности MRLs без токенизации, сохраняя при этом высокую эффективность вычислений. Данная проблематика мотивирует поиск новых подходов к морфологическому анализу и динамической сегментации последовательностей, которые могут улучшить качество модели, особенно на задачах, требующих высокой точности и робастности к шумам в данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД H-NET++ предлагает инновационный подход к моделированию языков без токенизации, основанный на иерархическом динамическом чанкинге (segmentation). Основные компоненты модели включают: 1. **Легковесный Transformer-контекстный миксер (1.9M параметров)**: этот модуль обеспечивает эффективное взаимодействие между чанками (подпоследовательностями), позволяя модели учитывать контекст на различных уровнях. 2. **Двухуровневая латентная гиперприора (two-level latent hyper-prior)**: этот механизм поддерживает согласованность на уровне документа, что критично для обработки длинных текстовых последовательностей. 3. **Специализированная обработка ортографических артефактов**: модель учитывает специфические особенности персидского языка, такие как ZWNJ, что повышает робастность модели к потенциальным коррупциям в данных. 4. **Куррикулум-басисное обучение (curriculum-based training)**: обучение проводится поэтапно с постепенным увеличением длины последовательностей, что позволяет модели эффективнее адаптироваться к сложности задач. Архитектура H-NET++ построена таким образом, чтобы учитывать морфологические границы без явного наложения супервизии, что демонстрирует возможность извлечения лексических единиц на основе динамического анализа. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на корпусе из 1.4 миллиардов токенов персидского языка. H-NET++ достигла значительных улучшений по сравнению с BPE-based GPT-2-fa: - **Снижение BPB (Bits Per Byte)**: на 0.159 BPB (12% лучшая степень сжатия). - **Повышение результатов на ParsGLUE**: на 5.4 процентных пункта. - **Улучшение робастности**: модель показала 53% выше устойчивости к коррупции ZWNJ. - **Точность морфологического анализа**: F1-мера достигла 73.8% на золотых границах морфологии. Полученные результаты показывают, что H-NET++ эффективно адаптируется к морфологической структуре языка, не требуя явной токенизации, и обеспечивает высокую эффективность вычислений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ H-NET++ открывает новые возможности для обработки MRLs в различных приложениях, таких как машинный перевод, анализ текста и поиск информации. Благодаря ее способности обрабатывать морфологические особенности естественного языка без необходимости токенизации, модель может быть использована в задачах, требующих высокой точности и адаптивности к контексту. Кроме того, легковесная архитектура и высокая эффективность вычислений делают H-NET++ приемлемой для развертывания в ресурсоемких средах, где важна быстрая обработка больших объемов текста. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ H-NET++ представляет собой эффективное решение для моделирования языков без токенизации, особенно в MRLs. Ее иерархический динамический чанкинг позволяет обеспечить высокую точность и робастность, одновременно сохраняя вычислительную эффективность. Будущие исследования могут фокусироваться на расширении данного подхода на другие MRLs, а также на интеграции дополнительных механизмов для улучшения интерпретируемости и адаптации модели к нестандартным контекстам.

Abstract

Byte-level language models eliminate fragile tokenizers but face computational challenges in morphologically-rich languages (MRLs), where words span many bytes. We propose H-NET++, a hierarchical dynamic-chunking model that learns linguistically-informed segmentation through end-to-end training. Key innovations include: (1) a lightweight Transformer context-mixer (1.9M parameters) for cross-chunk attention, (2) a two-level latent hyper-prior for document-level consistency, (3) specialized handling of orthographic artifacts (e.g. Persian ZWNJ), and (4) curriculum-based training with staged sequence lengths. On a 1.4B-token Persian corpus, H-NET++ achieves state-of-the-art results: 0.159 BPB reduction versus BPE-based GPT-2-fa (12% better compression), 5.4pp gain on ParsGLUE, 53% improved robustness to ZWNJ corruption, and 73.8% F1 on gold morphological boundaries. Our learned chunks align with Persian morphology without explicit supervision, demonstrating that hierarchical dynamic chunking provides an effective tokenizer-free solution for MRLs while maintaining computational efficiency.

Ссылки и действия