Hierarchical Resolution Transformers: A Wavelet-Inspired Architecture for Multi-Scale Language Understanding
2509.20581v1
cs.CL, cs.AI, cs.IR
2025-09-26
Авторы:
Ayan Sar, Sampurna Roy, Kanav Gupta, Anurag Kaushish, Tanupriya Choudhury, Abhijit Kumar
Резюме на русском
## Контекст
Трансформеры (Transformers) являются де-факто стандартом для решения задач обработки естественного языка, однако они неэффективно обрабатывают структуру языка, требуя квадратичного комплексности в зависимости от длины последовательности входных данных. Эта проблема становится еще более актуальной при работе с длинными текстами и дискурсами. Традиционные модели также слабо подстраиваются под целевые языковые задачи, такие как дискурс-уровень моделирования, и недостаточно эффективны в вычислительных ресурсах. Мы предлагаем новую архитектуру Hierarchical Resolution Transformer (HRT), которая адаптируется к естественному языку за счет многоуровневого представления текста и включает в себя элементы волновой теории. Это решение предназначено для улучшения моделирования языка на многих уровнях абстракции, от знаков до дискурсных единиц, с целью улучшения точности и снижения вычислительных затрат.
## Метод
HRT использует многоуровневую структуру, вдохновленную волновыми теориями, для обработки текста на разных резолюциях, от морфем до дискурсных единиц. Архитектура включает в себя механизмы внешней и внутренней активации, которые обеспечивают эффективную обработку последовательностей на разных уровнях. Мы вводим новый механизм "субдискретного привязывания" (sub-discrete attention), который позволяет модели обрабатывать текст в экспоненциальном природе, а также "экспоненциального сжатия последовательностей" (exponential sequence reduction), чтобы уменьшить количество элементов входа в модель. Эти функциональности позволяют HRT эффективно обрабатывать длинные тексты с меньшим количеством вычислительных ресурсов, при этом сохраняя высокую точность.
## Результаты
Мы проверили HRT на нескольких б BENCHMARKS, включая GLUE, SuperGLUE, Long Range Arena и WikiText-103. Наши результаты показывают, что HRT существенно превосходит традиционные модели Transformer по метрикам F1-score и accuracy. В частности, HRT показал +3.8% улучшение на GLUE, +4.5% на SuperGLUE, и +6.1% на Long Range Arena. К тому же, HRT эффективнее стандартных моделей по памяти и затратам времени, на 42% уменьшив память и 37% уменьшив latency на инференсе. Ablation studies показали, что как субдискретное привязывание, так и экспоненциальное сжатие вкладываются в оптимизацию как точности, так и эффективности.
## Значимость
HRT может быть применена в различных областях, включая дискурс-уровень моделирования, диалоговые системы, анализ длинных текстов, а также задачи машинного перевода. Его преимущества заключаются в наибольшей точности, эффективности ресурсов и эффективном моделировании дискурса. Эта модель может стать новой с
Abstract
Transformer architectures have achieved state-of-the-art performance across
natural language tasks, yet they fundamentally misrepresent the hierarchical
nature of human language by processing text as flat token sequences. This
results in quadratic computational cost, weak computational cost, weak
compositional generalization, and inadequate discourse-level modeling. We
propose Hierarchical Resolution Transformer (HRT), a novel wavelet-inspired
neural architecture that processes language simultaneously across multiple
resolutions, from characters to discourse-level units. HRT constructs a
multi-resolution attention, enabling bottom-up composition and top-down
contextualization. By employing exponential sequence reduction across scales,
HRT achieves O(nlogn) complexity, offering significant efficiency improvements
over standard transformers. We evaluated HRT on a diverse suite of benchmarks,
including GLUE, SuperGLUE, Long Range Arena, and WikiText-103, and results
demonstrated that HRT outperforms standard transformer baselines by an average
of +3.8% on GLUE, +4.5% on SuperGLUE, and +6.1% on Long Range Arena, while
reducing memory usage by 42% and inference latency by 37% compared to BERT and
GPT style models of similar parameter count. Ablation studies confirm the
effectiveness of cross-resolution attention and scale-specialized modules,
showing that each contributes independently to both efficiency and accuracy.
Our findings establish HRT as the first architecture to align computational
structure with the hierarchical organization of human language, demonstrating
that multi-scale, wavelet-inspired processing yields both theoretical
efficiency gains and practical improvements in language understanding.
Ссылки и действия
Дополнительные ресурсы: