Pointer: Linear-Complexity Long-Range Modeling without Pre-training

2508.02631v1 cs.CL 2025-08-09

Авторы:

Zixi Li

Резюме на русском

В статье представлена Pointer — новая модель для долгосрочной последовательностной обработки, которая обеспечивает линейную сложность $O(NK)$, не требуя предварительного обучения. Отличаясь от стандартных аутентичных механизмов, оперирующих $O(N^2)$ парными взаимодействиями, Pointer использует цепочки указателей (pointer chaining), где выбор указателей каждого слоя зависит от позиций указателей предыдущих слоев. Это позволяет формировать явные длинные связи в последовательности. Авторы показали, что Pointer обеспечивает скоростный прирост в $2$--$10$ раз по сравнению с трансформерами при работе с длинными последовательностями, сохраняет высокую точность (>95%) на задачах копирования с дистанцией до 2048 токенов и вырабатывает интерпретируемые указательные шаблоны, отражающие зависимости в данных. Эксперименты показали, что Pointer является эффективным инструментом для сценариев долгосрочной моделирования без необходимости предварительного обучения.

Abstract

We introduce Pointer, a novel architecture that achieves linear $O(NK)$ complexity for long-range sequence modeling while maintaining superior performance without requiring pre-training. Unlike standard attention mechanisms that compute $O(N^2)$ pairwise interactions, our approach uses layer-wise pointer chaining where each layer's pointer selection depends on previous layer's pointer positions, creating explicit long-distance connections through pointer chains. We demonstrate that this architecture achieves $2$--$10\times$ speedup on long sequences compared to standard transformers, maintains $>95\%$ accuracy on copy tasks at distances up to 2048 tokens, and learns interpretable pointer patterns that reveal structured dependency modeling. Our experiments on efficiency benchmarks, long-range dependency tasks, and interpretability analysis show that Pointer offers a compelling alternative to attention mechanisms for scenarios requiring efficient long-range modeling without pre-training dependencies.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pointer: Linear-Complexity Long-Range Modeling without Pre-training

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация