Hierarchical Resolution Transformers: A Wavelet-Inspired Architecture for Multi-Scale Language Understanding

2509.20581v1 cs.CL, cs.AI, cs.IR 2025-09-26
Авторы:

Ayan Sar, Sampurna Roy, Kanav Gupta, Anurag Kaushish, Tanupriya Choudhury, Abhijit Kumar

Резюме на русском

## Контекст Трансформеры (Transformers) являются де-факто стандартом для решения задач обработки естественного языка, однако они неэффективно обрабатывают структуру языка, требуя квадратичного комплексности в зависимости от длины последовательности входных данных. Эта проблема становится еще более актуальной при работе с длинными текстами и дискурсами. Традиционные модели также слабо подстраиваются под целевые языковые задачи, такие как дискурс-уровень моделирования, и недостаточно эффективны в вычислительных ресурсах. Мы предлагаем новую архитектуру Hierarchical Resolution Transformer (HRT), которая адаптируется к естественному языку за счет многоуровневого представления текста и включает в себя элементы волновой теории. Это решение предназначено для улучшения моделирования языка на многих уровнях абстракции, от знаков до дискурсных единиц, с целью улучшения точности и снижения вычислительных затрат. ## Метод HRT использует многоуровневую структуру, вдохновленную волновыми теориями, для обработки текста на разных резолюциях, от морфем до дискурсных единиц. Архитектура включает в себя механизмы внешней и внутренней активации, которые обеспечивают эффективную обработку последовательностей на разных уровнях. Мы вводим новый механизм "субдискретного привязывания" (sub-discrete attention), который позволяет модели обрабатывать текст в экспоненциальном природе, а также "экспоненциального сжатия последовательностей" (exponential sequence reduction), чтобы уменьшить количество элементов входа в модель. Эти функциональности позволяют HRT эффективно обрабатывать длинные тексты с меньшим количеством вычислительных ресурсов, при этом сохраняя высокую точность. ## Результаты Мы проверили HRT на нескольких б BENCHMARKS, включая GLUE, SuperGLUE, Long Range Arena и WikiText-103. Наши результаты показывают, что HRT существенно превосходит традиционные модели Transformer по метрикам F1-score и accuracy. В частности, HRT показал +3.8% улучшение на GLUE, +4.5% на SuperGLUE, и +6.1% на Long Range Arena. К тому же, HRT эффективнее стандартных моделей по памяти и затратам времени, на 42% уменьшив память и 37% уменьшив latency на инференсе. Ablation studies показали, что как субдискретное привязывание, так и экспоненциальное сжатие вкладываются в оптимизацию как точности, так и эффективности. ## Значимость HRT может быть применена в различных областях, включая дискурс-уровень моделирования, диалоговые системы, анализ длинных текстов, а также задачи машинного перевода. Его преимущества заключаются в наибольшей точности, эффективности ресурсов и эффективном моделировании дискурса. Эта модель может стать новой с

Abstract

Transformer architectures have achieved state-of-the-art performance across natural language tasks, yet they fundamentally misrepresent the hierarchical nature of human language by processing text as flat token sequences. This results in quadratic computational cost, weak computational cost, weak compositional generalization, and inadequate discourse-level modeling. We propose Hierarchical Resolution Transformer (HRT), a novel wavelet-inspired neural architecture that processes language simultaneously across multiple resolutions, from characters to discourse-level units. HRT constructs a multi-resolution attention, enabling bottom-up composition and top-down contextualization. By employing exponential sequence reduction across scales, HRT achieves O(nlogn) complexity, offering significant efficiency improvements over standard transformers. We evaluated HRT on a diverse suite of benchmarks, including GLUE, SuperGLUE, Long Range Arena, and WikiText-103, and results demonstrated that HRT outperforms standard transformer baselines by an average of +3.8% on GLUE, +4.5% on SuperGLUE, and +6.1% on Long Range Arena, while reducing memory usage by 42% and inference latency by 37% compared to BERT and GPT style models of similar parameter count. Ablation studies confirm the effectiveness of cross-resolution attention and scale-specialized modules, showing that each contributes independently to both efficiency and accuracy. Our findings establish HRT as the first architecture to align computational structure with the hierarchical organization of human language, demonstrating that multi-scale, wavelet-inspired processing yields both theoretical efficiency gains and practical improvements in language understanding.

Ссылки и действия