Towards Theoretical Understanding of Transformer Test-Time Computing: Investigation on In-Context Linear Regression

2508.07571v1 cs.LG, cs.AI 2025-08-13

Авторы:

Xingwu Chen, Miao Lu, Beining Wu, Difan Zou

Резюме на русском

#### Контекст Одной из ключевых областей исследований в рамках трансформеров является интерпретация и понимание их работы во время выполнения. Эффективность трансформеров в задачах естественного языка определяется не только их инференционным поverьем, но и возможностью эффективно использовать вычислительные ресурсы во время выполнения. Одним из областей интереса является влияние случайности и сэмплирования на результаты инеренции трансформеров. Однако существует ограниченное количество теоретических работ, которые были бы в состоянии объяснить эти эффекты на основе анализа трансформеров. Это исследование является первым шагом в этом направлении, нацеленном на укрепление теоретического подхода к пониманию интерпретации трансформеров. #### Метод Методология исследования основывается на введении случайности и сэмплирования в процессе вычислений трансформера. Главной идеей является создание фреймворка, который моделирует трансформерские вычисления с использованием шума и сэмплирования бинарных коэффициентов. В этой модели используется модель **in-context linear regression**, где входные данные имеют континуууальные или бинарные коэффициенты. Бинарные коэффициенты генерируются с помощью сэмплирования, а шум вводится в вычисления для моделирования случайности во время выполнения. Этот подход позволяет анализировать и проверять различные методы интерпретации трансформеров, включая те, которые применяются в реальных ситуациях. #### Результаты Исследование включает множество эмпирических экспериментов, использующих различные модели трансформеров и наборы данных. Использованы техники, такие как шумный инференс и сэмплирование бинарных коэффициентов, для моделирования различных сценариев вычислений. Результаты показывают, что использование случайности и сэмплирования может эффективно улучшить результаты, особенно в случаях, когда трансформер должен сделать несколько выборов или генерировать несколько вариантов ответа. Также были выявлены новые закономерности в поведении трансформеров, которые могут помочь в понимании их работы в реальных условиях. #### Значимость Результаты этого исследования имеют значительную значимость для нескольких дисциплин. В первую очередь, они позволяют понять, как работают трансформеры во время выполнения, и какие факторы влияют на их эффективность. Это может привести к разработке более эффективных алгоритмов и интерпретаций, которые могут быть применены в системах распознавания речи, перевода и других областях, где

Abstract

Using more test-time computation during language model inference, such as generating more intermediate thoughts or sampling multiple candidate answers, has proven effective in significantly improving model performance. This paper takes an initial step toward bridging the gap between practical language model inference and theoretical transformer analysis by incorporating randomness and sampling. We focus on in-context linear regression with continuous/binary coefficients, where our framework simulates language model decoding through noise injection and binary coefficient sampling. Through this framework, we provide detailed analyses of widely adopted inference techniques. Supported by empirical results, our theoretical framework and analysis demonstrate the potential for offering new insights into understanding inference behaviors in real-world language models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Theoretical Understanding of Transformer Test-Time Computing: Investigation on In-Context Linear Regression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация